影像和文字處理的 AI 擴充

Azure App Service

Azure Blob 儲存體

Azure AI 搜尋

Azure Functions

解決方案構想

本文是解決方案概念。如果您想要使用詳細資訊來擴充內容，例如潛在的使用案例、替代服務、實作考慮或定價指引，請提供 GitHub 意見反應讓我們知道。

本文提供一個解決方案，可藉由使用影像處理、自然語言處理和自定義技能來擷取特定領域數據，來擴充文字和影像檔。使用 AI 擴充 Azure 認知搜尋有助於大規模識別和探索相關內容。此解決方案會使用 AI 擴充，從原始複雜、非結構化的 JFK 暗殺記錄（JFK 檔案）資料集擷取意義。

架構

下載此架構的 Visio 檔案。

資料流程

上圖說明透過 Azure 認知搜尋技能管線傳遞非結構化 JFK 檔案數據集以產生結構化、可編製索引的數據的程式：

Azure Blob 儲存體中的非結構化數據，例如檔與影像，擷取至 Azure 認知搜尋。
檔破解步驟會從數據擷取影像和文字，然後擷取內容擴充，以起始編製索引程式。此程式中發生的擴充步驟取決於所選技能的數據和類型。
以電腦視覺和語言服務 API 為基礎的內建技能可啟用 AI 擴充，包括影像光學字元辨識（OCR）、影像分析、文字翻譯、實體辨識和全文搜索。
需要更複雜的 AI 模型或服務的自定義技能 支援案例。範例包括窗體辨識器、Azure 機器學習模型和 Azure Functions。
在擴充程式之後，索引器會將輸出儲存到 包含擴充和索引檔的搜尋索引 中。全文搜索和其他查詢表單可以使用此索引。
擴充的檔也可以投影到 知識存放區，而下游應用程式，例如知識採礦或數據科學可以使用。
查詢會存取搜尋索引中擴充的內容。索引支援自定義分析器、模糊搜尋查詢、篩選和評分配置檔，以調整搜尋相關性。
任何連線到 Blob 儲存體或 Azure 資料表儲存體的應用程式都可以存取知識存放區。

元件

Azure 認知搜尋與其他 Azure 元件搭配使用，以提供此解決方案。

Azure 認知搜尋

Azure 認知搜尋索引內容，並提供此解決方案中的用戶體驗。 Azure 認知搜尋可以將預先建置的認知技能套用至內容，擴充性機制可以新增特定擴充轉換的自定義技能。

Azure 電腦視覺

Azure 電腦視覺會使用文字辨識，從影像擷取和辨識文字資訊。讀取 API 會使用最新的 OCR 辨識模型，並針對大型、重文字的檔和嘈雜的影像進行優化。

舊版 OCR API 並未針對大型文件進行優化，但支援更多語言。 OCR 結果可能會根據掃描和影像品質而有所不同。目前的解決方案構想會使用 OCR 來產生 hOCR 格式的數據。

適用於語言的 Azure 認知服務

適用於語言的 Azure 認知服務會使用具名實體辨識（NER）、關鍵片語擷取和全文搜索等文字分析功能，從非結構化檔擷取文字資訊。

Azure 儲存體

Azure Blob 儲存體是以 REST 為基礎的物件記憶體，可供您透過 HTTPS 從世界各地存取的數據。您可以使用 Blob 儲存體公開數據給世界，或私下儲存應用程式數據。 Blob 儲存體適用於大量非結構化數據，例如文字或圖形。

Azure 資料表儲存體會在雲端中儲存高可用性、可調整、結構化或半結構化的 NoSQL 數據。

Azure Functions

Azure Functions 是無伺服器計算服務，可讓您執行少量的事件觸發程式代碼，而不需要明確布建或管理基礎結構。此解決方案會使用 Azure Functions 方法，將 CIA Cryptonyms 清單套用至 JFK 暗殺記錄作為自定義技能。

Azure App Service

此解決方案概念也會在 Azure App 服務中建置獨立 Web 應用程式，以測試、示範、搜尋索引，以及探索擴充和索引檔中的連線。

案例詳細資料

大型非結構化數據集可以包含打字和手寫筆記、相片和圖表，以及標準搜尋解決方案無法剖析的其他非結構化數據。 JFK 暗殺記錄包含超過34,000頁的檔，關於中情局調查1963年JFK暗殺事件。

JFK 檔案範例專案和在線示範會展示特定 Azure 認知搜尋使用案例。此解決方案概念並非適用於所有案例的架構或可調整架構，而是提供一般指導方針和範例。程式代碼專案和示範會為擷取的映像建立公用網站和可公開讀取的記憶體容器，因此您不應該將此解決方案與非公用數據搭配使用。

Azure 認知搜尋中的 AI 擴充可以從影像、Blob 和其他非結構化數據源擷取及增強可搜尋、可編制索引的文字，例如 JFK 檔案。 AI 擴充使用認知服務電腦視覺和適用於語言 API 的認知服務預先定型機器學習技能集。您也可以建立並附加自定義技能，以新增網域特定數據的特殊處理，例如 CIA Cryptonyms。 Azure 認知搜尋接著可以編製索引並搜尋該內容。

此解決方案中的 Azure 認知搜尋技能分為下列類別：

圖像處理。內建文字擷取和影像分析技能包括對象和臉部偵測、標記和標題產生，以及名人和地標識別。這些技能會建立影像內容的文字表示法，這些內容可使用 Azure 認知搜尋的查詢功能進行搜尋。 檔破解 是從非文字來源擷取或建立文字內容的程式。
自然語言處理。實體辨識、語言偵測和關鍵詞組擷取等內建技能會將非結構化文字對應至索引中可搜尋和可篩選的欄位。
自定義技能會擴充 Azure 認知搜尋，以將特定擴充轉換套用至內容。您可以透過自訂 Web API 技能指定自定義技能的介面。

潛在的使用案例

增加搜尋和數據科學應用程式中非結構化文字和影像內容的價值和公用程式。
使用自定義技能將開放原始碼、第三方或第一方程式代碼整合到編製索引管線中。
讓掃描的 JPG、PNG 或點陣圖檔全文搜索。
針對合併影像和文字的 PDF 檔，產生比標準 PDF 文字擷取更好的結果。某些掃描和原生 PDF 格式可能無法在 Azure 認知搜尋中正確剖析。
從原本有意義的原始內容或內容建立新資訊，這些內容隱藏在較大的非結構化或半結構化檔中。

參與者

本文由 Microsoft 維護。它最初是由下列參與者所撰寫。

主體作者：

卡洛斯·亞歷山大·桑托斯 |資深特製化 AI 雲端解決方案架構師

若要查看非公用LinkedIn配置檔，請登入LinkedIn。

下一步

深入瞭解此解決方案：

探索 GitHub 上的 JFK 檔案專案。
在在線影片中觀看作用中的程式。
探索 JFK 檔案在線示範。

閱讀產品檔案：

嘗試學習路徑：

使用 Azure 認知搜尋實作知識採礦

請參閱相關的架構和指引：

影像和文字處理的 AI 擴充

架構

資料流程

元件

Azure 認知搜尋

Azure 電腦視覺

適用於語言的 Azure 認知服務

Azure 儲存體

Azure Functions

Azure App Service

案例詳細資料

潛在的使用案例

參與者

下一步

相關資源

意見反應

意見反應

其他資源