文件智慧服務版面配置模型

重要

  • Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)blue-checkmarkv2.1 (GA)

此內容適用於:複選標記v3.1 (GA) | 最新版本:紫色複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.0blue-checkmarkv2.1

此內容適用於:複選標記v3.0 (GA) | 最新版本:紫色複選標記v4.0 (預覽)紫色複選標記v3.1 | 舊版:blue-checkmarkv2.1

此內容適用於:複選標記v2.1 | 最新版本:blue-checkmarkv4.0(預覽)

文件智慧服務版面配置模型是在文件智慧服務雲端中提供以進階機器學習為基礎的文件分析 API。 它能讓您採用各種格式的文件,然後傳回文件的結構化資料表示法。 它結合了增強版本的強大的 光學字元辨識(OCR) 功能與深度學習模型,以擷取文字、表格、選取標記和文件結構。

檔版面配置分析

文件結構版面配置分析是分析檔以擷取感興趣的區域及其相互關聯性的程式。 目標是從頁面擷取文字和結構元素,以建立更好的語意理解模型。 檔案設定中有兩種類型的角色:

  • 幾何角色:文字、表格、圖形和選取標記是幾何角色的範例。
  • 邏輯角色:標題、標題和頁尾是文字邏輯角色的範例。

下圖顯示範例頁面影像中的一般元件。

檔版面配置範例的圖例。

開發選項

Document Intelligence v4.0 (2024-02-29-preview, 2023-10-31-preview) 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
版面配置模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-layout

Document Intelligence v3.1 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
版面配置模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-layout

Document Intelligence v3.0 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
版面配置模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-layout

Document Intelligence v2.1 支援下列工具、應用程式和連結庫:

功能 資源
版面配置模型 文件智慧標籤工具
REST API
• 用戶端連結庫 SDK
Document Intelligence Docker 容器

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 圖片:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML
    參閱
    版面配置 ✔ (2024-02-29-preview, 2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

  • 支援的檔案格式:JPEG、PNG、PDF 和 TIFF。
  • 支持的頁數:若為 PDF 和 TIFF,最多處理 2,000 頁。 對於免費層訂閱者,只會處理前兩個頁面。
  • 支援的檔案大小:檔案大小必須小於 50 MB,且大小至少為 50 x 50 像素,且最多 10,000 x 10,000 像素。

開始使用版面配置模型

了解如何使用文件智慧服務,從文件中擷取包括文字、資料表、資料表標題、選取標記和結構資訊在內的資料。 您需要下列資源:

  • Azure 訂用帳戶-您可以 免費建立一個訂用帳戶。

  • Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (F0) 來試用服務。 部署資源之後,選取 [移至資源 ] 以取得您的金鑰和端點。

Azure 入口網站 中金鑰和端點位置的螢幕快照。

注意

Document Intelligence Studio 適用於 v3.0 API 和更新版本。

使用 Document Intelligence Studio (英文) 處理的文件範例

在 Document Intelligence Studio 中處理報紙頁面的 [版面配置] 螢幕快照。

  1. 在 [Document Intelligence Studio] 首頁上,選取 [ 版面配置]。

  2. 您可以分析範例檔或上傳您自己的檔案。

  3. 選取 [ 執行分析] 按鈕,並視需要設定 [分析] 選項

    Document Intelligence Studio 中 [執行分析和分析選項] 按鈕的螢幕快照。

文件智慧服務範例標籤工具

  1. 瀏覽至文件智慧服務範例工具 (英文)。

  2. 在範例工具首頁上,選取 [ 使用版面配置] 以取得文字、數據表和選取標記

    文件智慧服務版面配置程序的連線設定螢幕擷取畫面。

  3. 在 [文件智慧服務端點] 欄位中,貼上您透過文件智慧服務訂用帳戶取得的端點。

  4. 在 [金鑰] 欄位中,貼上您從文件智慧服務資源取得的金鑰。

  5. 在 [ 來源] 欄位中,從下拉功能表中選取 [URL ],您可以使用我們的範例檔:

  6. 選取 [ 執行配置]。 檔智慧範例標籤工具會呼叫 Analyze Layout API 來分析檔。

    [版面配置] 下拉式視窗的螢幕快照。

  7. 檢視結果 - 查看醒目提示的擷取文字、偵測到的選取標記和偵測到的數據表。

    文件智慧服務範例標籤工具的連線設定螢幕擷取畫面。

支援的語言和地區設定

如需支援語言的完整清單,請參閱 我們的 語言支援 — 檔案分析模型 頁面。

Document Intelligence v2.1 支援下列工具、應用程式和連結庫:

功能 資源
版面配置 API

資料擷取

版面配置模型會從您的檔中擷取文字、選取標記、表格、段落和段落類型(roles)。

注意

版本 2024-02-29-preview2023-10-31-preview和更新版本支援 Microsoft Office (DOCX、XLSX、PPTX) 和 HTML 檔案。 不支援下列功能:

  • 每個頁面對象沒有角度、寬度/高度和單位。
  • 針對偵測到的每個對象,沒有周框多邊形或周框區域。
  • 不支援頁面範圍 (pages) 做為參數。
  • 沒有 lines 物件。

頁面

pages 集合是檔中的頁面清單。 每個頁面都會在檔中循序表示,並包含方向角度,指出頁面是否旋轉,寬度和高度(以像素為單位的維度)。 模型輸出中的頁面單位會計算,如下所示:

檔案格式 計算頁面單位 總頁數
圖片(JPEG/JPG、PNG、BMP、HEIF) 每個影像 = 1 個頁面單位 影像總數
PDF PDF 中的每個頁面 = 1 個頁面單位 PDF 中的總頁數
TIFF TIFF = 1 頁單位中的每個影像 TIFF 中的影像總數
Word (DOCX) 最多 3,000 個字元 = 1 個頁面單位,不支援內嵌或連結的影像 每頁最多 3,000 個字元的總頁數
Excel (XLSX) 每個工作表 = 1 個頁面單位,不支援內嵌或連結的影像 工作表總計
PowerPoint (PPTX) 每張投影片 = 1 個頁面單位,不支援內嵌或連結的影像 投影片總計
HTML 最多 3,000 個字元 = 1 個頁面單位,不支援內嵌或連結的影像 每頁最多 3,000 個字元的總頁數
"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

從檔擷取選取的頁面

對於大型多頁檔,請使用 pages 查詢參數來指出文字擷取的特定頁碼或頁面範圍。

段落

版面配置模型會將集合中所有識別的 paragraphs 文字區塊擷取為 底下 analyzeResults的最上層物件。 這個集合中的每個專案都代表文本塊,並包含擷取的文字作為content和周 polygon 框座標。 資訊 span 會指向最上層 content 屬性內的文字片段,其中包含檔中的全文檢索。


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

段落角色

新的機器學習型頁面對象偵測會擷取邏輯角色,例如標題、區段標題、頁首、頁尾等等。 文件智慧服務版面配置模型會指派 paragraphs 集合中的特定文字區塊搭配模型所預測的特殊角色或類型。 它們最適合用於非結構化檔,以協助瞭解擷取內容的配置,以進行更豐富的語意分析。 支援下列段落角色:

預測角色 說明 支援的檔案類型
title 頁面中的主要標題 pdf, image, docx, pptx, xlsx, html
sectionHeading 頁面上的一或多個子標題 pdf, image, docx, xlsx, html
footnote 靠近頁面底部的文字 pdf,影像
pageHeader 靠近頁面上邊緣的文字 pdf、image、docx
pageFooter 靠近頁面下邊緣的文字 pdf, image, docx, pptx, html
pageNumber 頁碼 pdf,影像
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

文字、行和文字

文件智慧服務中的文件版面配置模型會將印刷和手寫樣式的文字擷取為 lineswords。 如果偵測到線條以及指向相關聯文字之範圍,集合 styles 會包含任何手寫樣式。 此功能適用於 支援的手寫語言

對於 Microsoft Word、Excel、PowerPoint 和 HTML,檔智慧版本 2024-02-29-preview 和 2023-10-31-preview 版面配置模型會依目前方式擷取所有內嵌文字。 文字會擷取為單字和段落。 不支援內嵌影像。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

手寫樣式的文字行

回應包含分類每個文字行是否為手寫樣式,以及信賴分數。 如需詳細資訊, 請參閱 手寫語言支援。 下列範例顯示範例 JSON 代碼段。

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

如果您啟用 字型/樣式附加元件功能,也會取得物件一部分的 styles 字型/樣式結果。

選取標記

版面配置模型也會從檔擷取選取標記。 擷取的選取標記會出現在每個頁面的集合中 pages 。 它們包括周框polygon、 和選取state專案 (selected/unselectedconfidence)。 文字表示法(亦即 :selected::unselected)也包含在起始索引中,offset而且 length 會參考包含檔中全文檢索的最上層 content 屬性。

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

資料表

擷取數據表是處理檔的主要需求,其中包含通常格式化為數據表的大量數據。 版面配置模型會擷 pageResults 取 JSON 輸出區段中的數據表。 擷取的數據表資訊包括數據行和數據列數目、數據列範圍和數據行範圍。 每個具有其周框多邊形的單元格都會輸出,以及是否將區域辨識為 columnHeader 的資訊。 此模型支援擷取旋轉的數據表。 每個數據表數據格都包含數據列和數據行索引,以及周框多邊形座標。 對於儲存格文字,模型會輸出 span 包含起始索引的資訊 (offset)。 此模型也會輸出 length 最上層內容中的 ,其中包含檔中的全文檢索。

注意

如果輸入檔為 XLSX,則不支持資料表。

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

註釋 (僅適用於 2023-02-28-preview API。

版面配置模型會擷取文件中的註釋,例如打勾和打叉記號。 回應包含註釋類型,以及信賴度分數和週框多邊形。

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

Markdown 格式的輸出

版面配置 API 可以輸出 Markdown 格式的擷取文字。 使用 以 outputContentFormat=markdown Markdown 指定輸出格式。 Markdown 內容會輸出為區段的 content 一部分。

"analyzeResult": {
"apiVersion": "2024-02-29-preview",
"modelId": "prebuilt-layout",
"contentFormat": "markdown",
"content": "# CONTOSO LTD...",
}

數位

檔中的圖表(圖表、影像)在補充和增強文字內容方面扮演了重要角色,提供視覺表示法,有助於瞭解複雜的資訊。 Layout 模型偵測到的圖表物件具有索引鍵屬性,例如 boundingRegions (檔頁面上的圖表空間位置,包括大綱圖界限的頁碼和多邊形座標), spans (詳細數據與圖表相關的文字範圍,指定檔文字內的位移和長度。此連接有助於將圖形與其相關的文字內容產生關聯, elements (與或描述該圖相關之檔內的文字元素或段落的標識符),如果有 caption 的話。

{
    "figures": [
      {
        "boundingRegions": [],
        "spans": [],
        "elements": [
          "/paragraphs/15",
          ...
        ],
        "caption": {
          "content": "Here is a figure with some text",
          "boundingRegions": [],
          "spans": [],
          "elements": [
            "/paragraphs/15"
          ]
        }
      }
    ]
}

區段

階層式文件結構分析對於組織、理解及處理廣泛的文件至關重要。 這種方法對於語意分割長文件至關重要,可提升理解度、促進流覽,以及改善資訊擷取。 檔產生式 AI 中擷取增強產生 (RAG) 的出現突顯了階層式文件結構分析的重要性。 版面配置模型支持輸出中的區段和子區段,以識別每個區段內區段和對象的關聯性。 階層式結構會在每個區段中維護 elements 。 您可以使用 輸出來 Markdown 格式 ,輕鬆地取得 Markdown 中的區段和子區段。

{
    "sections": [
      {
        "spans": [],
        "elements": [
          "/paragraphs/0",
          "/sections/1",
          "/sections/2",
          "/sections/5"
        ]
      },
...
}

自然閱讀順序輸出 (僅限拉丁文)

您可以使用查詢參數指定文字行輸出 readingOrder 的順序。 針對更人性化的閱讀順序輸出使用 natural ,如下列範例所示。 這項功能僅支援拉丁語言。

「版面配置」模型讀取訂單處理的螢幕快照。

選取文字擷取的頁碼或範圍

對於大型多頁檔,請使用 pages 查詢參數來指出文字擷取的特定頁碼或頁面範圍。 下列範例顯示具有 10 頁的檔,並針對這兩個案例擷取文字 - 所有頁面 (1-10) 和選取的頁面 (3-6)。

已選取頁面輸出之版面配置模型的螢幕快照。

取得分析版面配置結果作業

第二個步驟是呼叫 取得分析版面配置結果 作業。 此作業接受所建立作業的結果標識碼輸入 Analyze Layout 。 它會傳回 JSON 回應,其中包含 具有下列可能值的狀態 欄位。

欄位 類型 可能值
status 字串 notStarted:分析作業未啟動。

running:分析作業正在進行中。
failed
:分析作業失敗。

succeeded:分析作業成功。

反覆呼叫此作業,直到傳回 succeeded 值為止。 若要避免超過每秒要求 (RPS) 速率,請使用 3 到 5 秒的間隔。

當 [狀態] 欄位有 succeeded 值時,JSON 回應會包括已擷取的版面配置、文字、資料表和選取標記。 擷取的數據報含擷取的文字行和文字、周框方塊、手寫指示、表格和選取標記,以及已選取/未選取的標記。

文字行的手寫分類(僅限拉丁文)

回應包含分類每個文字行是否為手寫樣式,以及信賴分數。 這項功能僅支援拉丁語言。 下列範例顯示影像中文字的手寫分類。

「版面配置」模型手寫分類程序的螢幕快照。

範例 JSON 輸出

取得分析版面配置結果作業的回應是文件的結構化表示法,其中包含擷取的所有資訊。 如需範例檔檔及其結構化輸出範例版面配置輸出,請參閱這裡。

JSON 輸出有兩個部分:

  • readResults 節點包含所有已辨識的文字和選取標記。 文字的呈現階層依序為頁面、行、個別字組。
  • pageResults 節點包含已擷取的資料表和儲存格及其週框方塊、信賴度,以及對 [readResults] 欄位中文字行和字組的參考。

範例輸出

Text

版面配置 API 會從具有多個文字角度和色彩的檔和影像擷取文字。 它接受文件、傳真、印刷和/或手寫(僅限英文)文字和混合模式的照片。 文字會擷取,其中包含行、字、周框方塊、信賴分數和樣式 (手寫或其他) 上提供的資訊。 JSON 輸出的 區段中會 readResults 包含所有文字資訊。

具有標頭的數據表

版面配置 API 會擷取 JSON 輸出區 pageResults 段中的數據表。 檔可以掃描、拍攝或數位化。 數據表可能會與合併的儲存格或數據行、具有或不含框線,以及具有奇數角度的複雜。 擷取的數據表資訊包括數據行和數據列數目、數據列範圍和數據行範圍。 每個具有其周框方塊的數據格都會輸出,以及是否將區域辨識為標頭的一部分。 模型預測的標頭單元格可以跨越多個數據列,而且不一定是數據表中的第一個數據列。 它們也會使用旋轉的數據表。 每個表格儲存格也包含全文檢索,其中包含區段中個別字組的 readResults 參考。

數據表範例

選取標記

版面配置 API 也會從檔擷取選取標記。 擷取的選取標記包括周框方塊、信賴度和狀態(選取/未選取)。 選取標記資訊會在 JSON 輸出的 區段中擷取 readResults

移轉指南

下一步