影像和文字處理的 AI 擴充

Azure App Service
Azure Blob 儲存體
Azure AI 搜尋
Azure Functions

解決方案構想

本文是解決方案概念。 如果您想要使用詳細資訊來擴充內容,例如潛在的使用案例、替代服務、實作考慮或定價指引,請提供 GitHub 意見反應讓我們知道。

本文提供一個解決方案,可藉由使用影像處理、自然語言處理和自定義技能來擷取特定領域數據,來擴充文字和影像檔。 使用 AI 擴充 Azure 認知搜尋 有助於大規模識別和探索相關內容。 此解決方案會使用 AI 擴充,從原始複雜、非結構化的 JFK 暗殺記錄 (JFK 檔案) 資料集擷取意義。

架構

Diagram that shows Azure Cognitive Search architecture to convert unstructured into structured data.

下載此架構的 Visio 檔案

資料流程

上圖說明透過 Azure 認知搜尋 技能管線傳遞非結構化 JFK 檔案數據集以產生結構化、可編製索引的數據的程式:

  1. Azure Blob 儲存體 中的非結構化數據,例如檔與影像,擷取至 Azure 認知搜尋。
  2. 破解 步驟會從數據擷取影像和文字,然後擷取內容擴充,以起始編製索引程式。 此程式中發生的擴充步驟取決於所選技能的數據和類型。
  3. 以 電腦視覺 和語言服務 API 為基礎的內建技能可啟用 AI 擴充,包括影像光學字元辨識(OCR)、影像分析、文字翻譯、實體辨識和全文搜索。
  4. 需要更複雜的 AI 模型或服務的自定義技能 支援案例。 範例包括窗體辨識器、Azure 機器學習 模型和 Azure Functions。
  5. 在擴充程式之後,索引器會將輸出儲存到 包含擴充和索引檔的搜尋索引 中。 全文搜索和其他查詢表單可以使用此索引。
  6. 擴充的檔也可以投影到 知識存放區,而下游應用程式,例如知識採礦或數據科學可以使用。
  7. 查詢會存取搜尋索引中擴充的內容。 索引支援自定義分析器、模糊搜尋查詢、篩選和評分配置檔,以調整搜尋相關性。
  8. 任何連線到 Blob 儲存體 或 Azure 資料表 儲存體 的應用程式都可以存取知識存放區。

元件

Azure 認知搜尋 與其他 Azure 元件搭配使用,以提供此解決方案。

Azure 認知搜尋 索引內容,並提供此解決方案中的用戶體驗。 Azure 認知搜尋 可以將預先建置的認知技能套用至內容,擴充性機制可以新增特定擴充轉換的自定義技能

Azure 電腦視覺

Azure 電腦視覺 會使用文字辨識,從影像擷取和辨識文字資訊。 讀取 API 會使用最新的 OCR 辨識模型,並針對大型、重文字的檔和嘈雜的影像進行優化。

版 OCR API 並未針對大型文件進行優化,但支援更多語言。 OCR 結果可能會根據掃描和影像品質而有所不同。 目前的解決方案構想會使用 OCR 來產生 hOCR 格式的數據

適用於語言的 Azure 認知服務

適用於語言的 Azure 認知服務會使用具名實體辨識(NER)關鍵片語擷取和全文搜索等文字分析功能,從非結構化檔擷取文字資訊。

Azure 儲存體

Azure Blob 儲存體 是以 REST 為基礎的物件記憶體,可供您透過 HTTPS 從世界各地存取的數據。 您可以使用 Blob 儲存體 公開數據給世界,或私下儲存應用程式數據。 Blob 儲存體 適用於大量非結構化數據,例如文字或圖形。

Azure 資料表 儲存體 會在雲端中儲存高可用性、可調整、結構化或半結構化的 NoSQL 數據。

Azure Functions

Azure Functions 是無伺服器計算服務,可讓您執行少量的事件觸發程式代碼,而不需要明確布建或管理基礎結構。 此解決方案會使用 Azure Functions 方法,將 CIA Cryptonyms 清單套用至 JFK 暗殺記錄作為自定義技能。

Azure App Service

此解決方案概念也會在 Azure App 服務建置獨立 Web 應用程式,以測試、示範、搜尋索引,以及探索擴充和索引檔中的連線。

案例詳細資料

大型非結構化數據集可以包含打字和手寫筆記、相片和圖表,以及標準搜尋解決方案無法剖析的其他非結構化數據。 JFK 暗殺記錄包含超過34,000頁的檔,關於中情局調查1963年JFK暗殺事件。

JFK 檔案範例專案在線示範會展示特定 Azure 認知搜尋 使用案例。 此解決方案概念並非適用於所有案例的架構或可調整架構,而是提供一般指導方針和範例。 程式代碼專案和示範會為擷取的映像建立公用網站和可公開讀取的記憶體容器,因此您不應該將此解決方案與非公用數據搭配使用。

Azure 認知搜尋 中的 AI 擴充可以從影像、Blob 和其他非結構化數據源擷取及增強可搜尋、可編制索引的文字,例如 JFK 檔案。 AI 擴充使用認知服務 電腦視覺適用於語言 API 的認知服務預先定型機器學習技能集。 您也可以建立並附加 自定義技能 ,以新增網域特定數據的特殊處理,例如 CIA Cryptonyms。 Azure 認知搜尋 接著可以編製索引並搜尋該內容。

此解決方案中的 Azure 認知搜尋 技能分為下列類別:

  • 圖像處理。 內建文字擷取和影像分析技能包括對象和臉部偵測、標記和 標題 產生,以及名人和地標識別。 這些技能會建立影像內容的文字表示法,這些內容可使用 Azure 認知搜尋 的查詢功能進行搜尋。 檔破解 是從非文字來源擷取或建立文字內容的程式。

  • 自然語言處理。 實體辨識語言偵測關鍵詞組擷取等內建技能會將非結構化文字對應至索引中可搜尋和可篩選的欄位。

  • 自定義技能會擴充 Azure 認知搜尋,以將特定擴充轉換套用至內容。 您可以透過自訂 Web API 技能指定自定義技能介面。

潛在的使用案例

  • 增加搜尋和數據科學應用程式中非結構化文字和影像內容的價值和公用程式。
  • 使用自定義技能將開放原始碼、第三方或第一方程式代碼整合到編製索引管線中。
  • 讓掃描的 JPG、PNG 或點陣圖檔全文搜索。
  • 針對合併影像和文字的 PDF 檔,產生比標準 PDF 文字擷取更好的結果。 某些掃描和原生 PDF 格式可能無法在 Azure 認知搜尋 中正確剖析。
  • 從原本有意義的原始內容或內容建立新資訊,這些內容隱藏在較大的非結構化或半結構化檔中。

參與者

本文由 Microsoft 維護。 它最初是由下列參與者所撰寫。

主體作者:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

下一步

深入瞭解此解決方案:

閱讀產品檔案:

嘗試學習路徑:

請參閱相關的架構和指引: