Share via


檔智慧附加元件功能

重要

  • Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)

此內容適用於:複選標記v3.1 (GA) | 最新版本:紫色複選標記v4.0 (預覽)

注意

除了名片模型之外,所有模型都可以使用附加元件功能。

功能

檔智慧支援更複雜的模組化分析功能。 使用附加元件功能來擴充結果,以包含從檔擷取的更多功能。 某些附加元件功能會產生額外的成本。 視檔擷取的案例而定,可以啟用和停用這些選擇性功能。 若要啟用功能,請將相關聯的功能名稱新增至 features 查詢字串屬性。 您可以藉由提供以逗號分隔的功能清單,在要求上啟用多個附加元件功能。 下列附加元件功能適用於 2023-07-31 (GA) 和更新版本。

注意

並非所有模型都支援所有附加元件功能。 如需詳細資訊, 請參閱模型數據擷取

下列附加元件功能適用於2024-02-29-preview2024-02-29-preview和更新版本:

注意

2023-10-30-preview API 中的查詢欄位實作與上次預覽版本不同。 新的實作成本較低,且適用於結構化檔。

版本可用性

附加元件功能 附加元件/免費 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
字型屬性擷取 附加元件 ✔️ ✔️ n/a n/a
公式擷取 附加元件 ✔️ ✔️ n/a n/a
高解析度擷取 附加元件 ✔️ ✔️ n/a n/a
條碼擷取 免費 ✔️ ✔️ n/a n/a
語言偵測 免費 ✔️ ✔️ n/a n/a
索引鍵值組 免費 ✔️ n/a n/a n/a
查詢欄位 附加元件* ✔️ n/a n/a n/a

✱ 附加元件 - 查詢欄位的價格與其他附加元件功能不同。 如需詳細資訊,請參閱 定價

支援的檔案格式

  • PDF

  • 影像:JPEG/JPG、、、BMPPNGTIFFHEIF

✱ 目前不支援 Microsoft Office 檔案。

高解析度擷取

從大型文件 (如工程繪圖) 中識別小型文字是一項挑戰。 文字通常會與其他圖形元素混合,而且具有不同的字型、大小和方向。 此外,文字可以分成不同的部分,或與其他符號連接。 檔智慧現在支援從具有功能的檔類型 ocr.highResolution 擷取內容。 透過啟用此附加功能,您可以提高從 A1/A2/A3 文件中擷取內容的品質。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

公式擷取

ocr.formula 功能擷取 formulas 集合中所有已識別的公式,如數學方程,作為 content 下的頂端物件。 在 content 內部,偵測到的公式表示為 :formula:。 此集合中的每個項目都表示一個公式,其包括作為 inlinedisplay 的公式類型、作為 value 的 LaTeX 表示及其 polygon 座標。 最初,公式顯示在每頁的末尾。

注意

分數 confidence 是硬式編碼的。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

字型屬性擷取

ocr.font 功能擷取 styles 集合中擷取之文字的所有字型屬性,作為 content 下的頂端物件。 每個樣式物件都指定單一字型内容、它所套用的文字範圍及其相應的信賴度分數。 現有樣式屬性擴充了更多字型屬性,例如針對文字字型的 similarFontFamily,針對斜體和一般等樣式的 fontStyle,針對粗體或一般的 fontWeight,針對文字色彩的 color,針對文字週框方塊色彩的 backgroundColor

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

條碼屬性擷取

此功能會將 ocr.barcode 集合中 barcodes 所有識別的條碼擷取為 底下 content的最上層物件。 在 content 內部,偵測到的條碼表示為 :barcode:。 此集合中的每個項目表示一個條碼,包括條碼類型 kind 和內嵌的條碼內容 value 及其 polygon 座標。 最初,條碼顯示在每頁的末尾。 confidence硬式編碼為 1。

支援的條碼類型

條碼類型 範例
QR Code QR 代碼的螢幕擷取畫面。
Code 39 Code 39 的螢幕擷取畫面。
Code 93 程式代碼93的螢幕快照。
Code 128 Code 128 的螢幕擷取畫面。
UPC (UPC-A & UPC-E) UPC 的螢幕擷取畫面。
PDF417 PDF417 的螢幕擷取畫面。
EAN-8 歐洲文章編號條碼 ean-8 的螢幕快照。
EAN-13 歐洲文章編號條碼 ean-13 的螢幕快照。
Codabar Codabar 的螢幕快照。
Databar 數據行的螢幕快照。
Databar 擴大 [數據行展開] 的螢幕快照。
ITF 交錯五個條碼 (ITF) 的螢幕快照。
Data Matrix 數據矩陣的螢幕快照。
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

語言偵測

languages將功能新增至analyzeResult要求會預測每個文字行偵測到的主要語言,以及 confidence 集合analyzeResult底下的 languages

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

索引鍵/值組

在舊版 API 中,預先建置的檔模型會從窗體和檔中擷取索引鍵/值組。 keyValuePairs新增功能以預先建置的配置,版面配置模型現在會產生相同的結果。

索引鍵/值組是文件內的特定範圍,其識別標籤或索引鍵,及其相關的回應或值。 在結構化表單中,這些組別可能是標籤,以及使用者為該欄位輸入的值。 在非結構化文件中,它們可能是根據段落中文字內容而得的合約執行日期。 AI 模型已經過定型,可以根據各種不同的文件類型、格式和結構來擷取可識別的索引鍵和值。

若模型偵測到索引鍵存在,且沒有相關聯的值或處理選用欄位時,索引鍵也可以單獨存在。 例如,某些實例中的窗體上可以保留空白的中間名字段。 索引鍵/值組是文件中所包含的文字範圍。 若是文件對相同的值有不同的描述方式,例如客戶/使用者,則相關聯的關鍵為客戶或使用者,視前後文而定。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

查詢欄位

查詢欄位是附加元件功能,可擴充從任何預先建置模型擷取的架構,或在索引鍵名稱為變數時定義特定索引鍵名稱。 若要使用查詢欄位,請將功能設定為 queryFields ,並在屬性中 queryFields 提供逗號分隔的功能變數名稱清單。

  • 檔智慧現在支持查詢欄位擷取。 使用查詢欄位擷取,您即可使用查詢要求將欄位新增至擷取流程,而不需要新增訓練。

  • 當您需要擴充預先建置或自定義模型的架構,或需要擷取一些具有配置輸出的欄位時,請使用查詢欄位。

  • 查詢欄位是進階附加元件功能。 為了獲得最佳結果,請定義您想要使用駱駝式大小寫或Pascal案例功能變數名稱來擷取多字功能變數名稱的欄位。

  • 查詢欄位支援每個要求最多 20 個字段。 如果檔包含欄位的值,則會傳回欄位和值。

  • 此版本具有查詢欄位功能的新實作,其價格低於先前的實作,且應該經過驗證。

注意

Document Intelligence Studio 查詢欄位擷取目前適用於版面配置和預建模型 2024-02-29-preview2023-10-31-preview API 和更新版本,但模型除外 US tax (W2、1098s 和 1099s 模型)。

查詢欄位擷取

針對查詢欄位擷取,請指定您要擷取的欄位,而文件智慧會據以分析文件。 以下是範例:

  • 如果您要在 Document Intelligence Studio處理合約,請使用 2024-02-29-preview2023-10-31-preview 版本:

    文件智慧工作室中查詢欄位按鈕的螢幕擷取畫面。

  • 您可以傳遞欄位標籤清單,例如、、、、PaymentTermsPaymentDateTermEndDate 作為要求的一部分analyze documentTermsOfUseParty2Party1

    文件智慧工作室中查詢欄位選取視窗的螢幕擷取畫面。

  • 檔智慧能夠分析和擷取欄位數據,並傳回結構化 JSON 輸出中的值。

  • 除了查詢欄位之外,回應還包含文字、數據表、選取標記和其他相關數據。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

下一步

SDK 範例: python