快速入門:在 Azure 入口網站中建立 Azure 認知搜尋技能集

瞭解 Azure 認知搜尋中的 AI 擴充如何新增光學字元辨識 (OCR) 、影像分析、語言偵測、文字翻譯和實體辨識,以在搜尋索引中建立可搜尋的內容。

在本快速入門中,您將執行匯入 資料 精靈,以套用在編制索引期間轉換和擴充內容的技能。 輸出是可搜尋的索引,其中包含 AI 產生的影像文字、標題和實體。 擴充的內容可使用 搜尋總管在入口網站中查詢。

若要準備,您必須先建立一些資源並上傳範例檔案,再執行精靈。

偏好從程式碼開始? 請改用 .NET 教學課程Python教學課程或 REST 教學課程

必要條件

開始之前,必須先具備下列必要條件:

注意

本快速入門使用適用于 AI 的 認知服務 。 由於工作負載很小,因此認知服務會在幕後連線以進行免費處理,最多 20 筆交易。 您可以完成此練習,而不需要建立認知服務資源。

設定您的資料

在下列步驟中,於 Azure 儲存體中設定 Blob 容器,以儲存異質內容檔案。

  1. 下載範例資料,其中有不同類型的小型檔案集。 將檔案解壓縮。

  2. 使用您的 Azure 帳戶登入 Azure 入口網站

  3. 建立 Azure 儲存體帳戶尋找現有的帳戶

    • 選擇與 Azure 認知搜尋相同的區域,以避免產生頻寬費用。

    • 選擇 StorageV2 (一般用途 V2) 。

  4. 在 Azure 入口網站中,開啟您的 Azure 儲存體頁面並建立容器。 您可以使用預設的公用存取層級。

  5. 在 [容器] 中,選取 [ 上傳 ] 以上傳您在第一個步驟中下載的範例檔案。 請注意,您有多種不同的內容類型,包括無法以原生格式全文檢索搜尋的影像和應用程式檔案。

    Screenshot of source files in Azure Blob Storage.

現在您已準備就緒,可移至「匯入資料」精靈。

執行匯入資料精靈

  1. 使用您的 Azure 帳戶登入 Azure 入口網站

  2. 尋找您的搜尋服務 ,然後在 [概觀] 頁面上,選取命令列上的 [ 匯入資料 ],以四個步驟設定認知擴充。

    Screenshot of the Import data command.

步驟 1 - 建立資料來源

  1. [連線到您的資料] 中,選擇 [Azure Blob 儲存體]。

  2. 選擇與儲存體帳戶的現有連線,然後選取您建立的容器。 指定資料來源的名稱,其餘部分則使用預設值。

    Screenshot of the data source definition page.

    繼續進行下一頁。

步驟 2 - 新增認知技能

接下來,設定 AI 擴充來叫用 OCR、影像分析和自然語言處理。

  1. 在本快速入門中,我們將使用免費的認知服務資源。 範例資料包含 14 個檔案,因此認知服務20 筆交易的免費配額就足以供本快速入門使用。

    Screenshot of the Attach Cognitive Services tab.

  2. 展開 [新增擴充 ],然後進行六個選項。

    啟用 OCR 以將影像分析技能新增至精靈頁面。

    選擇實體辨識 (人員、組織、位置) 和影像分析技能, (標籤、標題) 。

    Screenshot of the skillset definition page.

    繼續進行下一頁。

步驟 3 - 設定索引

索引會包含可搜尋的內容,而匯入資料精靈通常可藉由資料來源的取樣為您建立結構描述。 在此步驟中,請檢閱產生的結構描述,並視需要修改任何設定。 以下是針對示範 Blob 資料集而建立的預設結構描述。

在本快速入門中,精靈會妥善地設定好合理的預設值:

  • 預設欄位是以現有 Blob 的中繼資料屬性為基礎,再加上擴充輸出的新欄位 (,例如 、 peopleorganizationslocations) 。 從中繼資料與資料取樣可推斷資料類型。

  • 預設文件索引鍵是 metadata_storage_path (因欄位包含唯一值而選取)。

  • 預設屬性為 [可擷取] 和 [可搜尋]。 [可搜尋] 會允許對欄位進行全文檢索搜尋。 [可擷取] 表示可在結果中傳回欄位值。 精靈假設您希望這些欄位為可擷取並可搜尋,因為您是透過技能集來建立欄位。 如果您想要在篩選運算式中使用欄位,請選取 [ 篩選]。

    Screenshot of the index definition page.

將欄位標示為 [可擷取] 不表示該欄位「必須」出現在搜尋結果中。 您可以使用 $select 查詢參數來指定要包含哪些欄位,來控制搜尋結果組合。

繼續進行下一頁。

步驟 4 - 設定索引子

索引子會驅動編制索引程式。 它會指定資料來源名稱、目標索引和執行頻率。 [ 匯入資料 精靈] 會建立數個物件,包括您可以重複重設和執行的索引子。

  1. 在 [ 索引子] 頁面中,您可以接受預設名稱,然後選取 [ 一次 ] 立即執行。

    Screenshot of the indexer definition page.

  2. 按一下 [提交] 以建立並同時執行索引子。

監視狀態

認知技能的索引編製需要比一般文字的索引編製更長的時間來完成,OCR 和影像分析更是如此。 若要監視進度,請移至 [概觀] 頁面,然後選取頁面中間的 [索引子 ]。

Screenshot of the indexer status page.

若要檢查執行狀態的詳細資料,請從清單中選取索引子,然後選取 [成功 (] 或 [ 失敗 ]) 以檢視執行詳細資料。

在此示範中,有一個警告:「無法執行技能,因為一或多個技能輸入無效」。它會告訴您資料來源中的 PNG 檔案不會提供實體辨識的文字輸入。 發生這個警告的原因是上游 OCR 技能無法辨識影像中的任何文字,因此無法提供文字輸入給下游實體辨識技能。

技能集執行中常見的警告。 當您熟悉技能逐一查看資料的方式時,您將會開始注意模式,並瞭解哪些警告可放心忽略。

在搜尋總管中查詢

建立索引之後,請在 [搜尋 總管] 中執行查詢以傳回結果。

  1. 在搜尋服務儀表板頁面上,選取命令列上的 [搜尋總 管]。

  2. 選取頂端的 [變更索引] 以選取您建立的索引。

  3. 輸入搜尋字串以查詢索引,例如 search=Satya Nadella&$select=people,organizations,locations&$count=true

結果會以詳細資訊 JSON 的形式傳回,這很難讀取,特別是在大型檔中。 在此工具中進行搜尋的一些秘訣包括下列技巧:

  • 附加 $select 以限制結果中傳回的欄位。
  • 使用 CTRL-F 在 JSON 中搜尋特定屬性或字詞。

查詢字串會區分大小寫,因此如果您收到「未知的欄位」訊息,請檢查 [欄位] 或 [索引定義 (JSON)] 以確認名稱和大小寫。

Screenshot of the the Search explorer page.

重要心得

您現在已建立第一個技能集,並了解使用您自己的資料為擴充的搜尋解決方案設計原型所需的重要概念。

我們希望您了解的一些重要概念包括 Azure 資料來源上的相依性。 技能集會繫結至索引子,而索引子則專屬於 Azure 與來源。 雖然本快速入門使用 Azure Blob 儲存體,但可能會有其他 Azure 資料來源。 如需詳細資訊,請參閱 Azure 認知搜尋中的索引子

另一個重要概念是,技能會針對內容類型來運作,因此在處理異質性內容時,將會略過某些輸入。 此外,大型檔案或欄位可能會超過服務層級的索引子限制。 一旦發生這些事件,看到警告是很正常的事。

輸出會導向至搜尋索引,且在編製索引期間建立的名稱/值配對會與索引中的個別欄位相對應。 就內部而言,入口網站會設定註解並定義技能集,以建立作業順序和一般流程。 這些步驟會隱藏在入口網站中,但是當您開始撰寫程式碼時,這些概念就會變得很重要。

最後,您已了解可以藉由查詢索引來驗證內容。 最終,Azure 認知搜尋所提供的就是可搜尋的索引,且您可以使用簡單完全展開的查詢語法加以查詢。 包含擴充欄位的索引都彼此類似。 如果您想要納入標準或 自訂分析器評分設定檔同義字、 多面向導覽、地理搜尋或任何其他 Azure 認知搜尋功能,您當然可以這麼做。

清除資源

使用您自己的訂用帳戶時,在專案結束後確認您是否還需要您建立的資源,是很好的做法。 讓資源繼續執行可能會產生費用。 您可以個別刪除資源,或刪除資源群組以刪除整組資源。

您可以使用左導覽窗格中的 [所有資源] 或 [資源群組] 連結,在入口網站中尋找和管理資源。

如果您使用免費服務,請記住您會有三個索引、索引子和資料來源的限制。 您可以在入口網站中刪除個別項目,以避免超出限制。

後續步驟

您可以使用入口網站、.NET SDK 或 REST API 來建立技能集。 若要進一步精進知識,請使用 Postman 和更多範例資料來試用 REST API。