編輯

共用方式為


Azure 上的自定義文件處理模型

Azure AI 文件智慧服務
Azure AI 服務
Azure Logic Apps
Azure Machine Learning Studio
Azure 儲存體

本文說明用於建置、定型、部署及使用自定義文件處理模型的 Azure 解決方案。 這些 Azure 服務也提供使用者介面 (UI) 功能,以標記或標記文字處理。

架構

顯示自定義檔處理模型建置和部署程式的數個替代方案的架構圖表。

下載此架構的 Visio 檔案

資料流程

  1. Azure Logic Apps、Azure Data Factory 或 Azure Functions 等協調器會從電子郵件伺服器擷取訊息和附件,以及 FTP 伺服器或 Web 應用程式的檔案。

    • Azure Functions 和 Logic Apps 可啟用無伺服器工作負載。 您選擇的服務取決於您對服務功能的喜好設定,例如開發、連接器、管理和執行內容。 如需詳細資訊,請參閱 比較 Azure Functions 和 Azure Logic Apps

    • 請考慮使用 Azure Data Factory 進行大量數據移動。

  2. 協調器會將內嵌的數據傳送至 Azure Blob 儲存體 或 Data Lake 儲存體,並根據擴展名或客戶等特性,跨數據存放區組織數據。

  3. 表格辨識器 Studio、Language Studio 或 Azure Machine Learning 工作室 標籤標和標記文字數據,並建置自定義模型。 您可以單獨使用這三個服務,或以各種組合來處理不同的使用案例。

    • 如果檔需要擷取索引鍵/值組,或從影像格式或 PDF 建立自定義數據表,請使用 表格辨識器 Studio 來標記數據並定型自定義模型。

    • 針對以內容為基礎的文件分類,或針對特定領域實體擷取,您可以在 Language Studio 中定型自定義文字分類或具名實體辨識(NER) 模型。

    • Azure Machine Learning 工作室 也可以使用 PyTorch 或 TensorFlow 等開放原始碼架構來標記文字分類或實體擷取。

  4. 若要部署自定義模型,並使用它們進行推斷:

元件

  • Logic Apps 是 Azure Integration Services 的一部分。 Logic Apps 會建立自動化工作流程,以整合應用程式、數據、服務和系統。 使用適用於 Azure 儲存體 和 Office 365 等服務的受管理連接器,您可以在收到記憶體帳戶或電子郵件中的檔案時觸發工作流程。

  • Data Factory 是受控雲端擷取、轉換、載入 (ETL) 服務,用於數據整合和轉換。 Data Factory 可以將轉換活動新增至管線,包括叫用 REST 端點或在內嵌的數據上執行筆記本。

  • Azure Functions 是無伺服器計算服務,可裝載具有短期程式的事件驅動工作負載。

  • Blob 儲存體 是此案例中源檔的物件記憶體解決方案。 Blob 儲存體 支援多種語言的連結庫,例如 .NET、Node.js和 Python。 應用程式可以透過 HTTP/HTTPS 存取 Blob 儲存體 上的檔案。 Blob 儲存體 具有經常性存取層、非經常性存取層和封存存取層,可支援儲存大量數據的成本優化。

  • Data Lake 儲存體 是一組建置在巨量數據分析 Azure Blob 儲存體 上的功能。 Data Lake 儲存體 會保留 Blob 儲存體 的成本效益,並提供具有階層命名空間的檔案層級安全性和文件系統語意等功能。

  • 表格辨識器 是 Azure Applied AI Services一部分,具有內建的檔分析功能,可用來擷取印刷和手寫文字、數據表和索引鍵/值組。 表格辨識器 已預先建置模型,可從發票、檔、收據、身份證和名片擷取數據。 表格辨識器 也可以使用自定義範本表單模型或自定義神經檔模型來定型和部署自定義模型。

    表格辨識器 Studio 提供一個 UI 來探索 表格辨識器 功能和模型,以及建置、標記、定型和部署自定義模型。

  • 適用於語言 的 Azure 認知服務會合併 Azure 自然語言處理服務。 套件提供預先建置和可自定義的選項。 如需詳細資訊,請參閱適用於語言 的認知服務可用功能

    Language Studio 提供 UI 來探索和分析適用於語言功能的 Azure 認知服務。 Language Studio 也提供建置、標記、定型和部署自定義模型的選項。

  • Azure 機器學習 是一個開放平臺,可用來大規模管理機器學習模型開發和部署。

    • Azure Machine Learning 工作室 提供影像文字的數據標記選項。
    • 匯出標示為COCO或 Azure 機器學習 數據集的數據。 您可以使用數據集在 Azure 機器學習 Notebook 中定型和部署模型。
    • 將模型部署至 AKS 作為 Web 服務,以進行大規模即時推斷,或作為即時和批次推斷的受控端點。

替代項目

您可以根據特定使用案例,將更多工作流程新增至此案例。

  • 如果文件採用影像或 PDF 格式,您可以使用 Azure 電腦視覺表格辨識器 讀取 API 或開放原始碼連結庫來擷取數據。

  • 您可以在 Azure 認知服務 for Language 中使用預先建置的模型來執行 檔和交談摘要

  • 根據文件處理需求,使用前置處理程式代碼來執行文字處理步驟,例如清除、停止字組移除、詞幹化、字幹摘要和文字摘要。 您可以將程式代碼公開為自動化的 REST API。 透過整合 Logic AppsAzure Functions 擷取程式,手動或自動化這些步驟。

案例詳細資料

檔處理是廣泛的領域。 使用 Azure 表格辨識器 和適用於語言的 Azure 認知服務中提供的預先建置模型,可能很難滿足所有文件處理需求。 您可能需要建置自定義模型,將不同應用程式和網域的檔處理自動化。

模型自訂的主要挑戰包括:

  • 使用相關的索引鍵/值組實體標記或標記文字數據,以分類文字以進行擷取。
  • 大規模部署模型,以便與取用的應用程式輕鬆整合。

潛在使用案例

下列使用案例可以利用自定義模型來處理檔:

  • 根據開放原始碼架構建置自定義 NER 和文字分類模型。
  • 從保險和醫療保健等各種產業垂直類別的檔擷取自定義索引鍵值。
  • 針對安全性或財務等網域,標記並擷取預先建置的 NER 模型以外的特定網域相依實體。
  • 從檔案建立自定義數據表。
  • 擷取簽章。
  • 根據內容標記及分類電子郵件或其他檔。

考量

這些考量能實作 Azure Well-Architected Framework 的要素,其為一組指導原則,可以用來改善工作負載的品質。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework (部分機器翻譯)。

在此範例工作負載中,實作每個要素取決於以最佳方式設定和使用每個元件 Azure 服務。

可靠性

可靠性可確保您的應用程式符合您對客戶的承諾。 如需詳細資訊,請參閱可靠性要素的概觀 (部分機器翻譯)。

可用性

復原

安全性

安全性可提供保證,以避免刻意攻擊和濫用您寶貴的資料和系統。 如需詳細資訊,請參閱安全性要素的概觀

成本最佳化

成本最佳化是關於考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱成本最佳化要素的概觀

實作此解決方案的總成本取決於您選擇的服務定價。

此解決方案的主要成本如下:

如需特定元件定價的詳細資訊,請參閱下列資源:

使用 Azure 定價計算機來新增所選的元件選項,並預估整體解決方案成本。

效能效益

效能效率可讓您的工作負載進行調整,以有效率的方式符合使用者對其放置的需求。 如需詳細資訊,請參閱效能效率要件概觀

延展性

參與者

本文由 Microsoft 維護。 它最初是由下列參與者所撰寫。

主體作者:

若要查看非公開的 LinkedIn 設定檔,請登入 LinkedIn。

下一步