Azure AI Vision の使用を開始する

完了

コンピューター システムが書かれたテキストや印刷されたテキストを処理する能力は、Computer Vision と "自然言語処理" が交差する AI の領域です。 テキストを "読み取る" には Vision 機能が必要であり、自然言語処理機能によってその意味を理解します。

OCR は画像内のテキストの処理の基盤であり、個々の図形を文字、数字、句読点、またはその他のテキスト要素として認識するようにトレーニングされた機械学習モデルを使用します。 この種の機能の実装に関する初期の作業の多くは、郵便番号に基づくメールの自動並べ替えをサポートするために郵便サービスによって行われました。 それ以来、テキストを読み取るための最先端の技術が進歩し、画像内の印刷または手書きのテキストを検出して、1 行ずつ、単語単位で読み取るモデルができました。

A screenshot of an envelope showing a handwritten address with typed text next to it.

Azure AI Vision の OCR エンジン

Azure AI Vision サービスには、画像からコンピューターが読み取り可能なテキストを抽出する機能があります。 Azure AI Vision の Read API は、画像、PDF、TIFF ファイルからのテキスト抽出を行う OCR エンジンです。 画像の OCR は、ドキュメント以外の一般的な画像用に最適化されているため、ユーザー エクスペリエンスのシナリオに OCR を簡単に埋め込むことができます。

"Read OCR エンジン" とも呼ばれる Read API は最新の認識モデルを使用し、大量のテキストを含む画像や、かなりの視覚ノイズがある画像用に最適化されています。 テキストの行数、テキストを含む画像、手書き文字を考慮して、使用する適切な認識モデルを自動的に決定できます。

OCR エンジンは画像ファイルを取り込み、画像内で項目が配置されている境界ボックスまたは座標を識別します。 OCR では、モデルは画像内のテキストのように見えるものの周囲の境界ボックスを識別します。

Read API を呼び出すと、次の階層に配置された結果が返されます。

  • ページ - ページ サイズと向きに関する情報を含む、テキストの各ページ。
  • - ページ上のテキスト行。
  • 単語 - 境界ボックスの座標とテキストそのものを含む、テキストの行内の単語。

各行と単語には、ページ上での位置を示す境界ボックス座標が含まれます。

A screenshot showing bounding boxes around the page, line, and word of a letter.