Azure で OCR の使用を開始する

完了

画像からテキストを抽出する機能は、Computer Vision サービスによって処理され、画像解析機能も提供します。

Computer Vision 用の Azure リソース

Computer Vision サービスを使用するための最初のステップは、Azure サブスクリプションでそのためのリソースを作成することです。 次のいずれかのリソース タイプを使用できます。

  • Computer Vision: Computer Vision サービスの特定のリソース。 このリソースの種類は、他のコグニティブ サービスを使用しない場合や、Computer Vision リソースの使用率とコストを別々に追跡する場合に使用します。
  • Cognitive Services: Computer Vision と他の多くのコグニティブ サービスを含む一般的なコグニティブ サービスのリソース (Text Analytics、Translator Text など)。 複数のコグニティブ サービスを使用する予定で、管理と開発を簡略化する場合は、このリソースの種類を使用します。

どちらの種類のリソースを作成する場合でも、次の 2 つの情報を使用する必要があります。

  • クライアント アプリケーションの認証に使用される キー
  • リソースにアクセスできる HTTP アドレスを提供する エンドポイント

注意

Cognitive Services リソースを作成する場合、クライアント アプリケーションは、使用している特定のサービスに関係なく、同じキーとエンドポイントを使用します。

Computer Vision サービスを使用してテキストを読み取る

多くの場合、画像にはテキストが含まれています。 テキストは入力したものでも、手書きでもかまいません。 一般的な例としては、道路標識付きの画像、JPEG や PNG ファイル形式などの画像形式でスキャンされたドキュメント、会議中に使用されたホワイト ボードの写真などです。

Computer Vision サービスでは、画像内のテキストを読み取るために使用する 2 つのアプリケーション プログラミング インターフェイス (API) (OCR API および 読み取り API) を提供します。

OCR API

OCR API は、画像内の少量のテキストを素早く抽出するように設計されています。 これは同期して動作し、結果を即時に提供し、多数の言語のテキストを認識できます。

OCR API を使用して画像を処理すると、次の要素から構成される情報の階層が返されます。

  • テキストを含む画像内の 領域
  • 各領域のテキストの
  • 各テキスト行の 単語

これらの各要素について、OCR API は、領域、行、または単語が表示される画像内の位置を示す四角形を定義する "境界ボックス" 座標も返します。

読み取り API

画像がテキスト中心と見なされる場合、OCR 手法は誤検知を引き起こす可能性があります。 読み取り API は最新の認識モデルを使用し、大量のテキストを含む画像や、かなりの視覚ノイズがある画像に最適化されています。

読み取り API は、大量のテキストを含むスキャンされたドキュメントに適したオプションです。 また、読み取り API には、使用する適切な認識モデルを自動的に決定する機能があり、テキストの行と印刷されたテキストを含む画像をサポートし、手書き文字を認識します。

読み取り API は、より大きなドキュメントで動作するため、コンテンツを読み取ってアプリケーションに結果を返す間、アプリケーションをブロックしないように非同期的に動作します。 つまり、読み取り API を使用するには、アプリケーションで次の 3 ステップの処理を行う必要があります。

  1. API に画像を送信し、応答として "操作 ID" を取得します。
  2. 操作 ID を使用して画像解析操作の状態を確認し、完了するまで待機します。
  3. 操作の結果を取得します。

読み取り API の結果は、次の階層に配置されます。

  • ページ - ページ サイズと向きに関する情報を含む、テキストの各ページ。
  • - ページ上のテキスト行。
  • 単語 - テキスト行の単語。

各行と単語には、ページ上での位置を示す境界ボックス座標が含まれます。