什麼是光學字元辨識?

光學字元辨識 (OCR) 可讓您從影像中取出列印或手寫的文字,例如街道號和產品的相片,以及檔 — 發票、帳單、財務報表、文章等等。 Microsoft 的 OCR 技術支援以 數種語言解壓縮印刷文字。 請遵循快速入門以開始使用。

OCR 示範

本檔包含下列類型的文章:

  • 快速入門是逐步指示,可讓您對服務進行呼叫,並在短時間內取得結果。
  • 操作 指南 包含以更具體或自訂的方式使用服務的指示。

讀取 API

電腦視覺 READ API 是 Azure 最新的 OCR 技術 (瞭解有哪些新 的) 可將列印的文字解壓縮 (數種語言) 、手寫文字 (僅英文) 、數位和貨幣符號,以及影像和多頁 PDF 檔。 它已優化,可將文字從大量文字的影像和具有混合語言的多頁 PDF 檔解壓縮。 它支援在相同的影像或檔中偵測列印和手寫的文字。

OCR 如何使用已解壓縮的文字將影像和檔轉換成結構化的輸出

輸入需求

讀取 呼叫會將影像和檔做為輸入。 它們具有下列需求:

  • 支援的檔案格式: JPEG、PNG、BMP、PDF 和 TIFF
  • 針對 PDF 和 TIFF 檔案,最多2000頁 (只會處理免費層) 的前兩個頁面。
  • 檔案大小必須小於 50 MB (6 MB 適用于免費層) 和維度至少 50 x 50 圖元及最多 10000 x 10000 圖元。

支援的語言

讀取 API 支援整份列印樣式文字73語言。 請參閱 OCR 支援語言的完整清單。 英文版僅支援手寫的 OCR。

主要功能

讀取 API 包含下列功能。

  • 73語言的列印文字解壓縮
  • 英文的手寫文字解壓縮
  • 具有位置和信賴分數的文字行和單字
  • 不需要語言識別
  • 支援混合語言、混合模式 (列印和手寫)
  • 從大型的多頁檔選取頁面和頁面範圍
  • 文字行的自然讀取順序
  • 文字行的手寫分類
  • 可作為內部部署的 Distroless Docker 容器

瞭解 如何使用 OCR 功能

使用雲端 API 或內部部署

Read 3.x 雲端 Api 是大部分客戶慣用的選項,因為這種方法可讓您輕鬆整合並快速提高產能。 當您專注于滿足客戶的需求時,Azure 和電腦視覺服務可處理規模調整、效能、資料安全性和合規性需求。

針對內部部署, 讀取 Docker 容器 (preview) 可讓您在自己的本機環境中部署新的 OCR 功能。 容器非常適合用於特定的安全性和資料控管需求。

警告

電腦視覺 2.0 RecognizeText 作業正在淘汰,以促進本文涵蓋的新 讀取 API 。 現有的客戶應該 轉換成使用讀取作業

資料隱私權和安全性

和所有認知服務一樣,使用電腦視覺服務的開發人員應該要了解 Microsoft 對於客戶資料的政策。 請參閱 Microsoft 信任中心上的認知服務頁面,以進行深入了解。

後續步驟