Azure Document Intelligence Studio を使用する

完了

Azure Document Intelligence サービスには、SDK と REST API に加えて、Azure Document Intelligence サービスの機能を視覚的に探索、把握、統合するためのオンライン ツールである Azure Document Intelligence Studio (プレビュー) と呼ばれるユーザー インターフェイス経由でアクセスできます。 Studio を使用すると、フォーム レイアウトの分析、事前構築済みモデルからのデータ抽出、カスタム モデルのトレーニングを行うことができます。

Gif of Azure Document Intelligence Studio capabilities.

Azure Document Intelligence Studio は現在、次のプロジェクトをサポートしています。

  • ドキュメント分析モデル
    • 読み取り: ドキュメントや画像から印刷および手書きのテキスト行、単語、場所、検出された言語を抽出します。
    • レイアウト: ドキュメント (PDF と TIFF) と画像 (JPG、PNG、BMP) から、テキスト、テーブル、選択マーク、構造情報を抽出します。
    • 一般的なドキュメント: ドキュメントからキーと値のペア、選択マーク、エンティティを抽出します。
  • 事前構築済みのモデル
  • カスタム モデル

ドキュメント分析モデル プロジェクトのビルド

ドキュメント分析モデルを使用してテキスト、テーブル、構造、キーと値のペア、および名前付きエンティティを抽出するには:

  • Azure Document Intelligence または Azure AI サービスのリソースを作成する
  • [読み取り]、[レイアウト]、[一般ドキュメント] のいずれかを、ドキュメント分析モデル カテゴリから選択します。
  • ドキュメントを分析します。 Azure Document Intelligence または Azure AI サービスのエンドポイントとキーが必要です。

事前構築済みモデル プロジェクトのビルド

事前構築済みモデルを使用して一般的なフォームからデータを抽出するには:

  • Azure Document Intelligence または Azure AI サービスのリソースを作成する
  • W-2、請求書、領収書、身分証明書、健康保険証、予防接種証明書、名刺などの "事前構築済みモデル" のいずれかを選択します。
  • ドキュメントを分析します。 Azure Document Intelligence または Azure AI サービスのエンドポイントとキーが必要です。

カスタム モデル プロジェクトのビルド

カスタム モデルのトレーニングとテストのプロセス全体に Azure Document Intelligence Studio のカスタム サービスを使用できます。

Azure Document Intelligence Studio を使用してカスタム モデルを構築すると、トレーニングに必要な ocr.json ファイル、labels.json ファイル、fields.json ファイルが自動的に作成され、ストレージ アカウントに格納されます。

カスタム モデルをトレーニングし、それを使用してカスタム モデルでデータを抽出するには:

  • Azure Document Intelligence または Azure AI サービスのリソースを作成する
  • トレーニング用のサンプル フォームを少なくとも 5 個から 6 個収集し、ストレージ アカウント コンテナーにアップロードします。
  • クロスドメイン リソース共有 (CORS) を構成します。 CORS を使用すると、Azure Document Intelligence Studio からラベル付きファイルをストレージ コンテナーに格納できます。
  • Azure Document Intelligence Studio でカスタム モデル プロジェクトを作成します。 ストレージ コンテナーと Azure Document Intelligence または Azure AI サービスのリソースをプロジェクトにリンクする構成を指定する必要があります。
  • Azure Document Intelligence Studio を使用して、テキストにラベルを適用します。
  • モデルをトレーニングします。 モデルがトレーニングされると、タグのモデル ID と平均精度を受け取ります。
  • トレーニングでは使用しなかった新しいフォームを分析して、モデルをテストします。