檔智慧標識碼檔模型

重要

  • Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)blue-checkmarkv2.1 (GA)

此內容適用於:複選標記v3.1 (GA) | 最新版本:紫色複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.0blue-checkmarkv2.1

此內容適用於:複選標記v3.0 (GA) | 最新版本:紫色複選標記v4.0 (預覽)紫色複選標記v3.1 | 舊版:blue-checkmarkv2.1

此內容適用於:複選標記v2.1 | 最新版本:blue-checkmarkv4.0(預覽)

檔智慧識別檔 (ID) 模型結合光學字元辨識 (OCR) 與深度學習模型,以分析及擷取識別檔中的關鍵資訊。 API 會分析身分識別檔(包括下列專案),並傳回結構化 JSON 數據表示法:

  • 全球護照簿、護照卡
  • 來自 美國、歐洲、印度、加拿大和澳大利亞的駕駛執照
  • 美國 身份證、居住證(綠卡)、社會保障卡、軍事身份證
  • 歐洲身份證、居住證
  • 印度 PAN 卡、Aadhaar 卡
  • 加拿大身份證、居住證(楓卡)
  • 澳大利亞照片卡、鑰匙通行證標識碼(包括數位版)

文件智慧可以使用其預先建置的標識符模型,分析及擷取政府簽發的標識碼(標識符)的資訊。 它結合了強大的 光學字元識別(OCR) 功能與標識符辨識功能,從全球護照和美國駕駛執照(所有50個州和D.C.)擷取重要資訊。 標識元 API 會從這些身分識別檔擷取重要資訊,例如名字、姓氏、出生日期、文件號碼等等。 此 API 可在 Document Intelligence v2.1 中以雲端服務的形式提供。

身分識別文件處理

身分識別文件處理牽涉到手動或使用 OCR 型技術,從身分識別檔擷取數據。 標識符文件處理是任何需要身分識別證明的商業作業的重要步驟。 範例包括銀行和其他金融機構的客戶驗證、抵押貸款申請、醫療訪問、索賠處理、酒店業等等。 個人會透過駕照、護照和其他類似檔提供其身分識別的一些證明,以便企業在提供服務和權益之前有效率地進行驗證。

資料擷取

預先建置的標識碼服務會從全球護照和美國駕照擷取密鑰值,並以有組織的結構化 JSON 回應傳回它們。

駕駛執照範例

範例驅動程序授權

Passport 範例

範例 Passport

開發選項

Document Intelligence v4.0 (2024-02-29-preview, 2023-10-31-preview) 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
標識碼檔模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

Document Intelligence v3.1 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
標識碼檔模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

Document Intelligence v3.0 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
標識碼檔模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

Document Intelligence v2.1 支援下列工具、應用程式和連結庫:

功能 資源
標識碼檔模型 文件智慧標籤工具
REST API
• 用戶端連結庫 SDK
Document Intelligence Docker 容器

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 圖片:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML
    參閱
    版面配置 ✔ (2024-02-29-preview, 2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

  • 支援的檔案格式:JPEG、PNG、PDF 和 TIFF。

  • PDF 和 TIFF 檔案支援的頁數:最多 2,000 頁,或只有免費層訂閱者的前兩頁。

  • 支援的檔案大小:總計小於 50 MB;最小圖元:50 x 50 圖元;最大圖元 10,000 x 10,000 像素。

標識符檔模型數據擷取

從標識符檔擷取數據,包括名稱、出生日期和到期日。 您需要下列資源:

  • Azure 訂用帳戶-您可以 免費建立一個訂用帳戶。

  • Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (F0) 來試用服務。 部署資源之後,選取 [移至資源 ] 以取得您的金鑰和端點。

Azure 入口網站 中金鑰和端點位置的螢幕快照。

注意

文件智慧服務工作室有 v3.1 和 v3.0 API 及更高版本可供使用。

  1. 在 [文件智慧 Studio] 首頁上,選取 [ 身分識別檔]。

  2. 您可以分析範例發票,或上傳您自己的檔案。

  3. 選取 [ 執行分析] 按鈕,並視需要設定 [分析] 選項

    Document Intelligence Studio 中 [執行分析和分析選項] 按鈕的螢幕快照。

文件智慧服務範例標籤工具

  1. 瀏覽至 Document Intelligence 範例工具

  2. 在範例工具首頁上,選取 [ 使用預先建置的模型來取得數據 磚]。

    配置模型分析結果作業的螢幕快照。

  3. 從下拉功能表中選取要分析的表單類型

  4. 從下列選項中選擇您想要分析之檔案的 URL:

  5. 在 [ 來源] 欄位中,從下拉功能表中選取 [URL ]、貼上選取的 URL,然後選取 [ 擷取 ] 按鈕。

    來源位置下拉功能表的螢幕快照。

  6. 在 [文件智慧服務端點] 欄位中,貼上您透過文件智慧服務訂用帳戶取得的端點。

  7. 在 [金鑰] 欄位中,貼上您從文件智慧服務資源取得的金鑰。

    選取檔案類型下拉功能表的螢幕快照。

  8. 選取 [ 執行分析]。 文件智慧範例標籤工具會呼叫分析預先建置的 API 並分析檔。

  9. 檢視結果 - 查看擷取的索引鍵/值組、行專案、已擷取的醒目提示文字,以及偵測到的數據表。

    身分識別模型分析結果作業的螢幕快照。

  10. 下載 JSON 輸出檔案以檢視詳細結果。

    • “readResults” 節點包含每一行文字,其各自的周框方塊放置在頁面上。
    • “selectionMarks” 節點會顯示每個選取標記(複選框、單選標記),以及其狀態為已選取或未選取
    • “pageResults” 區段包含擷取的數據表。 針對每個數據表,Document Intelligence 會擷取文字、數據列和數據行索引、數據列和數據行跨越、周框方塊等等。
    • “documentResults” 字段包含文件最相關部分的索引鍵/值組資訊和明細項目資訊。

注意

範例 標籤工具 不支援 BMP 檔案格式。 這是工具的限制,而不是 Document Intelligence 服務的限制。

支援的文件類型

區域 文件類型
全球 Passport Book、Passport Card
美國 駕照、身份證、居住證(綠卡)、社會保障卡、軍事身份證
歐洲 駕照、身份證、落地證
印度 駕照、PAN 卡、Aadhaar 卡
加拿大 駕照、身份證、落地證(楓卡)
澳洲 駕駛執照、照片卡、金鑰通行證識別碼(包括數位版本)

欄位擷取

以下是每個檔類型擷取的欄位。 文件智慧標識元模型 prebuilt-idDocument 會擷取 中的 documents.*.fields下列欄位。 json 輸出包含檔、單字、行和樣式中的所有擷取文字。

idDocument.driverLicense

欄位 類型 描述 範例
CountryRegion countryRegion 國家或地區代碼 USA
Region string 縣/市 華盛頓州
DocumentNumber string 駕駛執照號碼 WDLABCD456DG
DocumentDiscriminator string 驅動程式授權文件歧視性 12645646464554646456464544
FirstName string 如果適用,則指定名稱和中間初始 LIAM R.
LastName string Surname 塔爾博特
Address address 位址 123 街位址您的城市 WA 99999-1234
DateOfBirth date 生日 01/06/1958
DateOfExpiration date 到期日 08/12/2020
DateOfIssue date 核發日期 08/12/2012
EyeColor string 眼睛色彩 藍色
HairColor string 頭髮顏色 棕色
Height string 5'11"
Weight string Weight 185LB
Sex string 性別 M
Endorsements string 認可 L
Restrictions string 限制 B
VehicleClassifications string 車輛分類 D

idDocument.passport

欄位 類型 描述 範例
DocumentNumber string Passport 號碼 340020013
FirstName string 如果適用,則指定名稱和中間初始 詹妮弗
MiddleName string 指定名稱和姓氏之間的名稱 雷耶斯
LastName string Surname 布魯克斯
Aliases array
Aliases.* string 也稱為 MAT LIN
DateOfBirth date 生日 1980-01-01
DateOfExpiration date 到期日 2019-05-05
DateOfIssue date 核發日期 2014-05-06
Sex string 性別 F
CountryRegion countryRegion 發行國家/地區或組織 USA
DocumentType string Document type P
Nationality countryRegion 國籍 USA
PlaceOfBirth string 出生地 馬薩諸塞州,美國
PlaceOfIssue string 問題地點 裡斯本
IssuingAuthority string 發行授權單位 美國 國務院
PersonalNumber string 個人標識碼。 否。 A234567893
MachineReadableZone object 機器可讀取區域 (MRZ) P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F190505471000307<715816
MachineReadableZone.FirstName string 如果適用,則指定名稱和中間初始 詹妮弗
MachineReadableZone.LastName string Surname 布魯克斯
MachineReadableZone.DocumentNumber string Passport 號碼 340020013
MachineReadableZone.CountryRegion countryRegion 發行國家/地區或組織 USA
MachineReadableZone.Nationality countryRegion 國籍 USA
MachineReadableZone.DateOfBirth date 生日 1980-01-01
MachineReadableZone.DateOfExpiration date 到期日 2019-05-05
MachineReadableZone.Sex string 性別 F

idDocument.nationalIdentityCard

欄位 類型 描述 範例
CountryRegion countryRegion 國家或地區代碼 USA
Region string 縣/市 華盛頓州
DocumentNumber string 國家身份證號碼 WDLABCD456DG
DocumentDiscriminator string 國家身份證文件歧視性 12645646464554646456464544
FirstName string 如果適用,則指定名稱和中間初始 LIAM R.
LastName string Surname 塔爾博特
Address address 位址 123 街位址您的城市 WA 99999-1234
DateOfBirth date 生日 01/06/1958
DateOfExpiration date 到期日 08/12/2020
DateOfIssue date 核發日期 08/12/2012
EyeColor string 眼睛色彩 藍色
HairColor string 頭髮顏色 棕色
Height string 5'11"
Weight string Weight 185LB
Sex string 性別 M

idDocument.residencePermit

欄位 類型 描述 範例
CountryRegion countryRegion 國家或地區代碼 USA
DocumentNumber string 居住證號碼 WDLABCD456DG
FirstName string 如果適用,則指定名稱和中間初始 LIAM R.
LastName string Surname 塔爾博特
DateOfBirth date 生日 01/06/1958
DateOfExpiration date 到期日 08/12/2020
DateOfIssue date 核發日期 08/12/2012
Sex string 性別 M
PlaceOfBirth string 出生地 德國
Category string 允許類別 DV2
Address string 位址 123 街位址您的城市 WA 99999-1234

idDocument.usSocialSecurityCard

欄位 類型 描述 範例
DocumentNumber string 社會安全卡號碼 WDLABCD456DG
FirstName string 如果適用,則指定名稱和中間初始 LIAM R.
LastName string Surname 塔爾博特
DateOfIssue date 核發日期 08/12/2012

idDocument

欄位 類型 描述 範例
Address address 位址 123 街位址您的城市 WA 99999-1234
DocumentNumber string 駕駛執照號碼 WDLABCD456DG
FirstName string 如果適用,則指定名稱和中間初始 LIAM R.
LastName string Surname 塔爾博特
DateOfBirth date 生日 01/06/1958
DateOfExpiration date 到期日 08/12/2020

支援的文件類型

標識符檔模型目前支援美國駕駛執照和國際護照的傳記頁面(不包括簽證和其他旅行檔)擷取。

已擷取的欄位

名稱 類型​​ 描述
國家/地區 國家/地區 符合 ISO 3166 標準的國家/地區代碼 "USA"
DateOfBirth date YYYY-MM-DD 格式的 DOB "1980-01-01"
DateOfExpiration date YYYY-MM-DD 格式的到期日 "2019-05-05"
DocumentNumber string 相關護照號碼、駕駛執照號碼等。 "340020013"
FirstName string 如果適用的話,擷取指定的名稱和中間初始 “JENNIFER”
LastName string 擷取的姓氏 “布魯克斯”
國籍 國家/地區 符合 ISO 3166 標準的國家/地區代碼 "USA"
性別 性別 可能擷取的值包括 “M” “F” “X” "F"
MachineReadableZone object 擷取的 Passport MRZ 包含兩行 44 個字元 “P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816”
DocumentType string 檔類型,例如 Passport、驅動程式授權 “passport”
位址 string 擷取的位址(僅限駕駛執照) “123 街位址您的城市 WA 99999-1234”
區域 string 擷取區域、州、省等(僅限駕駛執照) “Washington”

移轉指南

下一步