Azure Document Intelligence とは?

完了

Azure Document Intelligence は、アプリケーションにインテリジェンスを組み込むために使用できる REST API とクライアント ライブラリ SDK を備えたクラウドベースの人工知能 (AI) サービスである、多数の Azure AI サービスの 1 つです。

Azure Document Intelligence は光学式文字認識 (OCR) 機能とディープ ラーニング モデルを使用して、ドキュメントからテキスト、キーと値のペア、選択マーク、およびテーブルを抽出します。

Screenshot of how OCR works.

OCR を使用すると、画像内で検出されたオブジェクトの周囲に境界ボックスを作成することで、ドキュメントの構造をキャプチャできます。 境界ボックスの位置は、ページの他の部分との相対座標として記録されます。 Azure Document Intelligence サービスは、境界ボックスのデータと、元のファイルとの関係を持つ構造化した形式のその他の情報を返します。

Screenshot of JSON output sample.

高精度のモデルをゼロから構築するには、ディープ ラーニング モデルを構築し、大量のコンピューティング リソースを使用し、モデルのトレーニングに長時間も費やす必要があります。 このような要因により、プロジェクトを実行できなくなることもあります。 Azure Document Intelligence には、何千ものフォーム例でトレーニングされた基盤となるモデルが用意されています。 この基盤となるモデルを使用すると、モデルのトレーニングをほとんど行わなくても、フォームから高精度のデータを抽出できるようになります。

Azure Document Intelligence のサービス コンポーネント

Azure Document Intelligence は、次のサービスで構成されます。

  • ドキュメント分析モデル: JPEG、PNG、PDF、TIFF ファイルの入力を受け取り、境界ボックス内のテキストの位置、テキストの内容、テーブル、選択マーク (チェックボックスやラジオ ボタンとも呼ばれます)、ドキュメント構造を含む JSON ファイルを返します。

  • 事前構築済みのモデル: ドキュメント イメージから情報を検出および抽出し、抽出されたデータを構造化された JSON 出力で返します。 現在、Azure Document Intelligence は次のようないくつかのフォームの事前構築済みモデルをサポートしています。

    • W-2 フォーム
    • 請求書
    • Receipts
    • 身分証明書
    • 名刺
  • カスタム モデル: カスタム モデルを使用すると、実際の業務に固有のフォームからデータを抽出できます。 カスタム モデルは、Azure Document Intelligence Studio を使用してトレーニングできます。

Note

一部の Azure Document Intelligence 機能は、このコンテンツが作成された時点ではプレビュー段階にあるため、機能と使用方法の詳細が変更される可能性があります。 最新の情報については、公式ページを参照してください。

クライアント ライブラリ SDK または REST API を使用してサービスにアクセスする

Azure Document Intelligence サービスには、REST API、クライアント ライブラリ SDK を使用して、および Azure Document Intelligence Studio を使用してサービスをワークフローまたはアプリケーションに統合することで、アクセスできます。

ヒント

このモジュールの演習では、Python と .NET の SDK に焦点を当てます。 基盤となる REST サービスは、どの言語でも使用できます。

使用できるすべての SDK と REST API のクイック スタート ガイドについては、ドキュメントを参照してください。