光学式文字認識とは

光学式文字認識 (OCR) を使用すると、道路標識や製品の写真などの画像や、送り状、請求書、財務報告書、記事などのドキュメントから、印刷または手書きのテキストを抽出できます。 Microsoft の OCR テクノロジでは、複数の言語で印刷されたテキストの抽出がサポートされます。 クイックスタートに従って始めてください。

OCR のデモ

このドキュメントには、次のような記事が記載されています。

  • クイックスタートは、サービスの呼び出しと結果の取得を短時間で行えるようにする、ステップバイステップの手順です。
  • 攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。

Read API

Computer Vision の Read API は、印刷されたテキスト (複数の言語)、手書きのテキスト (複数の言語)、数字、通貨記号を、画像や複数ページの PDF ドキュメントから抽出する、Azure の最新 OCR テクノロジです (新機能について学習する)。 これは、テキストの多い画像や、混合言語を含む複数ページの PDF ドキュメントからテキストを抽出するように最適化されています。 同じ画像またはドキュメントで、印刷と手書き両方のテキストの検出がサポートされています。

OCR で画像やドキュメントからテキストを抽出して構造化された出力に変換するしくみ

入力の要件

Read 呼び出しにより、画像とドキュメントが入力として取得されます。 これには次の要件があります。

  • サポートされているファイル形式: JPEG、PNG、BMP、PDF、TIFF
  • PDF ファイルと TIFF ファイルの場合は、最大 2,000 ページ (Free レベルの場合は最初の 2 ページのみ) が処理されます。
  • ファイル サイズは 50 MB 未満 (Free レベルの場合は 6 MB)、寸法は 50 x 50 ピクセル以上 10,000 x 10,000 ピクセル以下にする必要があります。

サポートされている言語

Read API は、プレビューの言語と機能を含め、印刷テキストでは 122 言語、手書きテキストでは 7 言語をサポートしています。

印刷用テキストの OCR には、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、中国語、日本語、韓国語、ロシア語 (プレビュー) に加え、最新のプレビュー更新プログラムではラテン語とキリル文字もサポートしています。

手書きテキストの OCR には、英語に加えて、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、中国語のプレビューがサポートされています。

プレビューの言語と機能を使用するためのモデル バージョンの指定方法に関するページを参照してください。 OCR でサポートされている言語の完全な一覧を参照してください。 プレビュー モデルには、現在の GA バージョンに対する拡張機能が含まれています。

主要な機能

Read API には次の機能があります。

  • 122 言語の印刷テキストの抽出
  • 7 つの言語での手書きテキストの抽出
  • テキスト行と単語に位置と信頼度スコアを追加
  • 言語の識別が不要
  • 混合言語、混合モード (印刷と手書き) のサポート
  • 複数ページから成る大きなドキュメントからページやページ範囲を選択
  • テキスト行出力の自然な読み取り順オプション (ラテン語のみ)
  • テキスト行の手書き分類 (ラテン語のみ)
  • オンプレミス デプロイ用の Distroless Docker コンテナーとして利用可能

OCR 機能の使用方法を参照してください。

クラウド API の使用またはオンプレミスでのデプロイ

Read 3.x クラウド API は、統合が簡単で、すぐに生産性を上げることができるため、ほとんどのお客様にとって推奨される選択肢です。 Azure と Computer Vision サービスがスケール、パフォーマンス、データ セキュリティ、コンプライアンスのニーズに対応する一方で、お客様は顧客のニーズを満たすことに集中できます。

オンプレミスでのデプロイの場合、Read Docker コンテナー (プレビュー) を使用すると、独自のローカル環境に新しい OCR 機能をデプロイできます。 コンテナーは、特定のセキュリティ要件とデータ ガバナンス要件に適しています。

警告

Computer Vision 2.0 RecognizeText 操作は非推奨になる予定であり、この記事で取り上げている新しい Read API がその代わりになります。 既存顧客の皆様には、読み取り操作をご利用いただくようにお願いします。

データのプライバシーとセキュリティ

Cognitive Services 全般に言えることですが、Computer Vision サービスを使用する開発者は、顧客データに関する Microsoft のポリシーに留意する必要があります。 詳細については、Microsoft セキュリティ センターの Cognitive Services のページを参照してください。

次のステップ