OCR - 光學字元辨識

發行項
04/30/2024

OCR 或光學字元辨識也稱為文字辨識或文字擷取。機器學習型 OCR 技術可讓您從海報、街道符號和產品標籤這類影像以及從文章、報表、表單和發票這類文件中擷取印刷或手寫文字。文字通常會擷取為單字、文字行和段落或文字塊，以存取掃描文字的數位版本。這樣可消除或大幅減少手動數據輸入的需求。

智慧型文件處理 (IDP) 會使用 OCR 作為其基礎技術，以利用文件智慧服務這類進階機器學習型 AI 服務來額外擷取結構、關聯性、索引鍵值、實體和其他以文件為主的深入解析。文件智慧服務包括文件最佳化「讀取」版本作為其 OCR 引擎，同時委派給其他模型以進行更高階的深入解析。如果您要擷取所掃描和數位文件中的文字，則請使用文件智慧服務讀取 OCR。

OCR 引擎

Microsoft 的 Read OCR 引擎是由多個支援全球語言的進階機器學習模型所組成。其能夠擷取印刷和手寫文字，包括混合語言和書寫樣式。讀取可做為雲端服務和內部部署容器，以取得部署彈性。透過最新的預覽，它也可作為單一非檔、僅限影像案例的同步 API，具有效能增強功能，可讓您更輕鬆地實作 OCR 輔助用戶體驗。

警告

不建議使用 Azure AI 視覺 v3.2 中的 OCR API 和 v2.1 中的 RecognizeText API 的舊版作業。

OCR （閱讀）版本

重要

選取最符合您需求的讀取版本。

輸入	範例	讀取版本	優點
影像：一般、野生影像	標籤、街道標誌和海報	適用於映像的 OCR （4.0 版）	已針對具有效能增強的同步 API 進行一般非檔影像優化，可讓您更輕鬆地在用戶體驗案例中內嵌 OCR。
檔：數位和掃描，包括影像	書籍、文章和報表	文件智慧讀取模型	使用異步 API 針對大量文字掃描和數位文件進行優化，可協助大規模自動化智慧型手機文件處理。

關於 Azure AI 視覺 v3.2 GA 讀取

尋找最新的 Azure AI 視覺 v3.2 GA 讀取？所有未來的讀取 OCR 增強功能都屬於先前所列的兩項服務。 Azure AI 視覺 v3.2 沒有進一步的更新。如需詳細資訊，請參閱呼叫 Azure AI 視覺 3.2 GA 讀取 API 和快速入門：Azure AI 視覺 v3.2 GA 讀取。

如何使用 OCR

使用 Vision Studio 試用 OCR。然後遵循最符合您需求的其中一個讀取版本連結。

試用 Vision Studio

Screenshot: Read OCR demo in Vision Studio.

OCR 支援的語言

Azure AI 視覺中目前可用的兩個「讀取」版本都支援數種語言的印刷和手寫文字。適用於印刷文字的 OCR 支援英文、法文、德文、義大利文、葡萄牙文、西班牙文、中文、日文、韓文、俄文、阿拉伯文、印度文和其他使用拉丁文、斯拉夫文、阿拉伯文和 Devanagari 腳本的國際語言。手寫文字的 OCR 包含英文、簡體中文、法文、德文、義大利文、日文、韓文、葡萄牙文和西班牙文的支援。

請參閱 OCR 支援語言的完整清單。

OCR 一般功能

Azure AI 視覺和文件智慧服務中提供讀取 OCR 模型與通用基準功能，同時針對個別案例進行最佳化。下列清單摘要說明一般功能：

支援語言的印刷和手寫文字擷取
具有位置和信賴分數的頁面、文字行和單字
支援混合語言、混合模式（列印和手寫）
可作為內部部署部署的 Distroless Docker 容器

使用 OCR 雲端 API 或部署內部部署

雲端 API 是大部分客戶的慣用選項，因為它們的整合輕鬆且現能快速生產力。當您專注於滿足客戶的需求時，Azure 和 Azure AI 視覺服務可處理縮放、效能、資料安全性和合規性需求。

針對內部部署，讀取 Docker 容器可讓您在自己的本機環境中部署 Azure AI 視覺 v3.2 正式推出 OCR 功能。容器非常適合用於特定的安全性和資料控管需求。

OCR 數據隱私權和安全性

和所有 Azure AI 服務一樣，使用 Azure AI 視覺服務的開發人員應該要了解 Microsoft 對於客戶資料的政策。請參閱 Microsoft 信任中心上的 Azure AI 服務頁面以深入了解。

下一步

適用於一般 (非文件) 影像的 OCR：請嘗試 Azure AI 視覺 4.0 預覽影像分析 REST API 快速入門。
適用於 PDF、Office 和 HTML 文件和文件影像的 OCR：從文件智慧服務讀取開始。
尋找舊版 GA 嗎？請參閱Azure AI 視覺 3.2 GA SDK 或 REST API 快速入門。

OCR - 光學字元辨識

OCR 與智慧型手機文件處理 （IDP） 如何相關？