從 Azure Data Lake Storage Gen2 編製資料索引

在本文中,了解如何設定索引子,從 Azure Data Lake Storage (ADLS) Gen2 匯入內容,並讓內容可在 Azure AI 搜尋服務中搜尋。 索引子的輸入是單一容器中的 Blob。 輸出是搜尋索引,包含儲存在各欄位中可搜尋的內容和中繼資料。

本文提供從 ADLS Gen2 編制索引的特定資訊,以補充建立索引子。 本文使用 REST API 示範所有索引子通用的三部分工作流程:建立資料來源、建立索引、建立索引子。 提交建立索引子要求時會擷取資料。

如需 C# 中的程式碼範例,請參閱 GitHub 上的使用 Microsoft Entra ID 編製 Data Lake Gen2 的索引

必要條件

  • 已啟用階層命名空間ADLS Gen2。 ADLS Gen2 可透過 Azure 儲存體取得。 設定儲存體帳戶時,您可以選擇啟用階層命名空間,將檔案組成由目錄階層和巢狀子目錄組成的結構。 啟用階層命名空間,便啟用了 ADLS Gen2。

  • ADLS Gen2 的存取層包含經常性存取層、非經常性存取層和封存層。 搜尋索引子只能存取經常性存取層和非經常性存取層。

  • 包含文字的 Blob。 如果您使用二進位資料,即可加入 AI 擴充提供影像分析。 Blob 內容不能超過搜尋服務層級的索引子限制

  • Azure 儲存體的讀取權限。 「完整存取」連接字串包含授與內容存取權的索引鍵,但如果您要使用 Azure 角色,請確定搜尋服務受控識別具有儲存體 Blob 資料讀者權限。

  • 使用 REST 用戶端來制定類似本文所示的 REST 呼叫。

注意

ADLS Gen2 實作的存取控制模型,可支援 blob 層級的 Azure 角色型存取控制 (Azure RBAC) 和 POSIX 型存取控制清單 (ACL)。 Azure AI 搜尋服務不支援文件層級權限。 所有使用者對索引中所有可搜尋和可擷取的內容都具有相同層級的存取權。 如果文件層級權限是應用程式需求,請考慮使用安全性調整作為潛在的解決方案。

支援的文件格式

ADLS Gen2 索引子可以從下列文件格式擷取文字:

  • CSV (請參閱編製 CSV Blob 的索引)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (請參閱編製 JSON Blob 的索引)
  • KML (用於地理標記法的 XML)
  • Microsoft Office 格式:DOCX/DOC/DOCM、XLSX/XLS/XLSM、PPTX/PPT/PPTM、MSG (Outlook 電子郵件)、XML (2003 和 2006 WORD XML)
  • 開放式文件格式:ODT、ODS、ODP
  • PDF
  • 純文字檔案 (另請參閱編制純文字的索引)
  • RTF
  • XML
  • ZIP

決定要編製索引的 Blob

設定索引前,請檢閱來源資料並判斷事先是否要進行任何變更。 索引子一次可編製一個容器的內容索引。 預設處理容器中所有的 Blob。 提供您數個更具選擇性的處理選項:

  • 在虛擬資料夾中放置 Blob。 索引子資料來源定義包含可採用虛擬資料夾的「查詢」參數。 若您指定虛擬資料夾,只有資料夾中的 Blob 會編製索引。

  • 依檔案類型包含或排除 Blob。 支援的文件格式清單可協助您判斷要排除的 Blob。 例如,您可能要排除不提供可搜尋文字的影像或音訊檔案。 此功能是透過索引子中的設定控制。

  • 包含或排除任意 Blob。 如果您基於任何原因要跳過特定 Blob,請新增下列中繼資料屬性和值至 Blob 儲存體中的 Blob。 遇到此屬性時,索引子會跳過索引執行中的 Blob 或 Blob 內容。

    屬性名稱 屬性值 說明
    "AzureSearch_Skip" "true" 指示 blob 索引子以完全略過 blob。 不會嘗試擷取中繼資料或內容。 當特定 blob 一直失敗,並且中斷編製索引程序時,這非常有用。
    "AzureSearch_SkipContent" "true" 跳過內容並僅擷取中繼資料。 這相當於設定中所述的 "dataToExtract" : "allMetadata" 設定 (僅限於特定 Blob)。

如果您未設定包含或排除準則,索引子會報告不符合資格的 Blob 為錯誤並繼續執行。 若發生足夠的錯誤,處理可能停止。 您可在索引子設定中指定錯誤容錯。

索引子通常會為每個 Blob 建立一個搜尋文件,文件中的文字內容和中繼資料會擷取為索引中的可搜尋欄位。 如果 Blob 是整個檔案,您可以剖析這些 Blob 為多個搜尋文件。 例如,您可剖析 CSV 檔案中的資料列,並為每個資料列建立一個搜尋文件。

編製 Blob 中繼資料的索引

Blob 中繼資料也可編製索引,如果您認為任何標準或自訂中繼資料屬性有助於篩選或查詢,即適用 Blob 中繼資料。

使用者指定的中繼資料屬性會逐字擷取。 若要接收值,您必須在類型 Edm.String 的搜尋索引中定義欄位,且名稱與 Blob 中繼資料索引鍵相同。 例如,如果 Blob 有 Sensitivity 的中繼索引鍵且值為 High,請在搜尋索引中定義名為 Sensitivity 的欄位,系統會自動填入值 High

標準 Blob 中繼資料屬性可擷取至相似的具名和具類型的欄位,如下所示。 Blob 索引子會自動針對這些 Blob 中繼資料屬性,建立內部欄位對應,並轉換原始連字號名稱 (「metadata-storage-name」) 為底線對等名稱 (「metadata_storage_name」)。

您仍必須新增底線欄位至索引定義,但可省略欄位對應,因為索引子會自動建立關聯。

  • metadata_storage_name (Edm.String) - Blob 的檔案名稱。 例如,如果您有 blob /my-container/my-folder/subfolder/resume.pdf,這個欄位的值是 resume.pdf

  • metadata_storage_path (Edm.String) - Blob 的完整 URI,包含儲存體帳戶。 例如,https://myaccount.blob.core.windows.net/my-container/my-folder/subfolder/resume.pdf

  • metadata_storage_content_type (Edm.String) - 內容類型,即用來上傳 Blob 的程式碼指定類型。 例如: application/octet-stream

  • metadata_storage_last_modified (Edm.DateTimeOffset) - Blob 上次修改的時間戳記。 Azure AI 搜尋服務會使用此時間戳記來識別已變更的 blob,以避免在初始編製索引之後重新對所有項目編制索引。

  • metadata_storage_size (Edm.Int64) - Blob 大小 (以位元組為單位)。

  • metadata_storage_content_md5 (Edm.String) - Blob 內容的 MD5 雜湊 (若有)。

  • metadata_storage_sas_token (Edm.String) - 臨時 SAS 權杖,自訂技能可使用此權杖存取 Blob。 建議您不要儲存此權杖作為之後使用,因為權杖可能過期。

最後,編製索引的 Blob 文件格式特定的任何中繼資料屬性,也可以索引結構描述呈現。 如需內容特定中繼資料的詳細資訊,請參閱內容中繼資料屬性

請務必指出您的搜尋索引不必定義上述所有屬性的欄位,只要擷取應用程式所需的屬性。

定義資料來源

資料來源定義指定要編製索引的資料、認證,以及用於識別資料變更的原則。 資料來源定義為獨立的資源,所以可供多個索引子使用。

  1. 建立或更新資料來源並設定定義:

    {
        "name" : "my-adlsgen2-datasource",
        "type" : "adlsgen2",
        "credentials" : { "connectionString" : "DefaultEndpointsProtocol=https;AccountName=<account name>;AccountKey=<account key>;" },
        "container" : { "name" : "my-container", "query" : "<optional-virtual-directory-name>" }
    }
    
  2. 將「類型」設為 "adlsgen2" (必要)。

  3. "credentials" 設為 Azure 儲存體連接字串。 下一節說明支援的格式。

  4. "container" 設為 Blob 容器,並使用「查詢」指定任何子資料夾。

如果您希望索引子在來源文件標幟為刪除時,刪除時刪除搜尋文件,資料來源定義也可以包含虛刪除原則

支援的認證和連接字串

索引子可以使用下列連線,連線 Blob 容器。

完整存取儲存體帳戶連接字串
{ "connectionString" : "DefaultEndpointsProtocol=https;AccountName=<your storage account>;AccountKey=<your account key>;" }
您可以在 Azure 入口網站中,從 [儲存體帳戶] 頁面的左側瀏覽窗格,選取 [存取金鑰] 取得連接字串。 請務必選取完整的連接字串,而不只是金鑰。
受控識別連接字串
{ "connectionString" : "ResourceId=/subscriptions/<your subscription ID>/resourceGroups/<your resource group name>/providers/Microsoft.Storage/storageAccounts/<your storage account name>/;" }
此連接字串不需要帳戶金鑰,但您之前必須將搜尋服務設為使用受控識別連線
儲存體帳戶共用存取簽章** (SAS) 連接字串
{ "connectionString" : "BlobEndpoint=https://<your account>.blob.core.windows.net/;SharedAccessSignature=?sv=2016-05-31&sig=<the signature>&spr=https&se=<the validity end time>&srt=co&ss=b&sp=rl;" }
SAS 對於容器和物件 (在此案例中為 blob) 應該擁有列出和讀取權限。

注意

如果您使用 SAS 認證,您必須使用更新的簽章定期更新資料來源認證以防止其到期。 如果 SAS 認證過期,索引子會失敗並出現錯誤訊息,如「連接字串提供的認證無效或過期」。

新增搜尋欄位至索引

搜尋索引中,新增欄位接受 Azure Blob 的內容和中繼資料。

  1. 建立或更新索引,並定義搜尋欄位儲存 Blob 內容和中繼資料:

    {
        "name" : "my-search-index",
        "fields": [
            { "name": "ID", "type": "Edm.String", "key": true, "searchable": false },
            { "name": "content", "type": "Edm.String", "searchable": true, "filterable": false },
            { "name": "metadata_storage_name", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true  },
            { "name": "metadata_storage_size", "type": "Edm.Int64", "searchable": false, "filterable": true, "sortable": true  },
            { "name": "metadata_storage_content_type", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true }     
        ]
    }
    
  2. 建立文件索引鍵欄位 ("key": true)。 如果是 Blob 內容,最佳候選是中繼資料屬性。

    • metadata_storage_path (預設) 物件或檔案的完整路徑。 索引鍵欄位 (此範例為「識別碼」) 會填入 metadata_storage_path 的值,因為是預設值。

    • metadata_storage_name,只有名稱是唯一名稱時,才能使用。 如果您要此欄位作為索引鍵,請將 "key": true 移至此欄位的定義。

    • 新增至 Blob 的自訂中繼資料屬性。 此選項需要 Blob 上傳程序新增該中繼資料屬性至所有 Blob。 鑑於索引鍵是必要屬性,遺漏值的任何 Blob 即無法編製索引。 如果您使用自訂中繼資料屬性作為索引鍵,請避免變更該屬性。 如果索引鍵屬性變更,索引子會針對相同的 Blob 新增重複文件。

    中繼資料屬性通常包含對文件索引鍵無效的字元,例如/-。 因為使用「base64EncodeKeys」屬性 (預設為 true),索引子會自動編碼中繼資料屬性,而不需要設定或欄位對應。

  3. 透過 Blob 的「內容」屬性,新增「內容」欄位儲存從每個檔案擷取的文字。 您不必使用此名稱,但這麼做即可利用隱含欄位對應。

  4. 新增標準中繼資料屬性的欄位。 索引子可讀取自訂中繼資料屬性、標準中繼資料屬性和特定內容的中繼資料屬性。

設定和執行 ADLS Gen2 索引子

建立索引與資料來源之後,您就可以開始建立索引子。 索引子會設定指定輸入、參數和屬性,控制執行階段行為。 您也可指定要編製索引的 Blob 部分。

  1. 透過命名索引子並參考資料來源和目標索引,建立或更新索引子

    {
      "name" : "my-adlsgen2-indexer",
      "dataSourceName" : "my-adlsgen2-datasource",
      "targetIndexName" : "my-search-index",
      "parameters": {
          "batchSize": null,
          "maxFailedItems": null,
          "maxFailedItemsPerBatch": null,
          "base64EncodeKeys": null,
          "configuration": {
              "indexedFileNameExtensions" : ".pdf,.docx",
              "excludedFileNameExtensions" : ".png,.jpeg",
              "dataToExtract": "contentAndMetadata",
              "parsingMode": "default"
          }
      },
      "schedule" : { },
      "fieldMappings" : [ ]
    }
    
  2. 如果預設值 (10 份文件) 使用量過低或對可用資源負荷過大,請設定 "batchSize"。 預設批次大小是資料來源特定。 基於平均文件大小較大的考量,Blob 索引會將批次大小設為 10 個文件。

  3. 在「設定」下,根據檔案類型控制要編製索引的 Blob,或不指定檔案類型,然後擷取所有 Blob。

    針對 "indexedFileNameExtensions",提供副檔名的逗號分隔清單 (包含前置點)。 針對 "excludedFileNameExtensions" 執行相同動作,並指出要跳過的副檔名。 如果兩份清單中有相同的副檔名,索引會排除該檔案。

  4. 在「設定」下,設定「dataToExtract」控制要編製索引的 Blob 部分:

  5. 在「設定」下,如果 Blob 對應多個搜尋文件,或 Blob 包含純文字JSON 文件CSV 檔案,請設定「parsingMode」。

  6. 如果欄位名稱或類型有差異,或您需要搜尋索引中多個版本的來源欄位,請指定欄位對應

    在 Blob 索引中,您通常可以省略欄位對應,因為索引子使用內建支援對應「內容」和中繼資料屬性,與索引中類似的具名和具類型欄位。 針對中繼資料屬性,索引子會在搜尋索引中自動以底線取代連字號 -

  7. 如需其他屬性的詳細資訊,請參閱建立索引子。 如需參數描述的完整清單,請參閱 REST API 中的 Blob 設定參數

索引子建立後會自動執行。 您可以將「停用」設為 true 避免此情況。 若要控制索引子執行,請視需要執行索引子排程執行索引子

檢查索引子狀態

若要監視索引子狀態和執行歷程記錄,請傳送取得索引子狀態要求:

GET https://myservice.search.windows.net/indexers/myindexer/status?api-version=2023-11-01
  Content-Type: application/json  
  api-key: [admin key]

回應包含狀態和已處理的項目數目。 回應會類似於下列範例:

    {
        "status":"running",
        "lastResult": {
            "status":"success",
            "errorMessage":null,
            "startTime":"2024-02-21T00:23:24.957Z",
            "endTime":"2024-02-21T00:36:47.752Z",
            "errors":[],
            "itemsProcessed":1599501,
            "itemsFailed":0,
            "initialTrackingState":null,
            "finalTrackingState":null
        },
        "executionHistory":
        [
            {
                "status":"success",
                "errorMessage":null,
                "startTime":"2024-02-21T00:23:24.957Z",
                "endTime":"2024-02-21T00:36:47.752Z",
                "errors":[],
                "itemsProcessed":1599501,
                "itemsFailed":0,
                "initialTrackingState":null,
                "finalTrackingState":null
            },
            ... earlier history items
        ]
    }

執行歷程記錄包含最多 50 筆最近完成的執行,並由新至舊排序,所以最先顯示最後一次執行。

處理錯誤

編製索引期間常發生的錯誤包括內容類型不支援、內容遺漏或 Blob 過大。

根據預設,遇到 blob 包含不支援的內容類型 (例如音訊檔案) 時,Blob 索引子會立即停止。 您可使用「excludedFileNameExtensions」參數,跳過特定的內容類型。 不過,您可能需要繼續編製索引 (即使發生錯誤),並在稍後偵錯個別文件。 如需索引子錯誤的詳細資訊,請參閱索引子疑難排解指導索引子錯誤和警告

發生錯誤時,有五個索引子屬性可控制索引子的回應。

PUT /indexers/[indexer name]?api-version=2023-11-01
{
  "parameters" : { 
    "maxFailedItems" : 10, 
    "maxFailedItemsPerBatch" : 10,
    "configuration" : { 
        "failOnUnsupportedContentType" : false, 
        "failOnUnprocessableDocument" : false,
        "indexStorageMetadataOnlyForOversizedDocuments": false
    }
  }
}
參數 有效值 描述
「maxFailedItems」 -1、null 或 0、正整數 如果處理期間 (剖析 Blob 或新增文件至索引時) 發生任何錯誤,仍要繼續編製索引, 請將這些屬性設為可接受失敗的次數。 無論錯誤發生的次數,-1 的值允許繼續編製索引。 否則,此值為正整數。
「maxFailedItemsPerBatch」 -1、null 或 0、正整數 同上,但用於批次編製索引。
「failOnUnsupportedContentType」 [True] 或 [False] 如果索引子無法判斷內容類型,請指定是否繼續或放棄作業。
「failOnUnprocessableDocument」 [True] 或 [False] 如果索引子無法處理其他支援內容類型的文件,請指定是否繼續或放棄作業。
「indexStorageMetadataOnlyForOversizedDocuments」 [True] 或 [False] 預設會將過大的 Blob 視為錯誤。 如果您將此參數設定為 true,則即使無法編製內容索引,索引子仍會嘗試編製其中繼資料索引。 如需 Blob 的大小限制,請參閱服務限制

限制

  1. 不同於 Blob 索引器,ADLS Gen2 索引器無法利用容器層級 SAS 令牌來列舉和編製記憶體帳戶的內容索引。 這是因為索引器會進行檢查,以判斷記憶體帳戶是否透過呼叫 Filesystem - Get 屬性 API 來啟用階層式命名空間。 對於未啟用階層命名空間的記憶體帳戶,建議客戶改用 Blob 索引器 ,以確保 Blob 的高效能列舉。

  2. 如果屬性 metadata_storage_path 對應至索引鍵字段,則不保證 Blob 會在目錄重新命名時重新編製索引。 如果您想要重新編製已重新命名目錄一部分的 Blob 索引,請更新 LastModified 所有目錄的時間戳。

下一步

您目前已可執行索引子監視狀態排程執行索引子。 下列文章適用於從 Azure 儲存體提取內容的索引子: