Azure AI Search 内のナレッジストア

[アーティクル]
01/10/2024

ナレッジストアは、Azure AI 検索のスキルセットによって作成された AI でエンリッチされたコンテンツのセカンダリストレージです。 Azure AI 検索では、インデックス作成ジョブは常に出力を検索インデックスに送信しますが、インデクサーにスキルセットをアタッチする場合は、必要に応じて、Azure Storage のコンテナーまたはテーブルに AI でエンリッチされた出力を送信することもできます。ナレッジストアは、ナレッジマイニングなど、検索以外のシナリオでの独立した分析とダウンストリーム処理に使用できます。

インデックス作成の 2 つの出力 (検索インデックスとナレッジストア) は、同じパイプラインの相互に排他的な製品です。これらは同じ入力から派生し、同じデータを含んでいますが、そのコンテンツは構造化され、保存され、さまざまなアプリケーションで使用されます。

Pipeline with skillset

物理的には、ナレッジストアは Azure Storage です。つまり Azure Table Storage か Azure Blob Storage、またはその両方になります。 Azure Storage に接続できるすべてのツールまたはプロセスは、ナレッジストアのコンテンツを使用できます。 Azure AI 検索では、ナレッジストアからコンテンツを取得するためのクエリのサポートはありません。

Azure portal から表示すると、ナレッジストアは他のテーブル、オブジェクト、またはファイルのコレクションと同じように見えます。次のスクリーンショットは、3 つのテーブルで構成されるナレッジストアを示しています。 kstore プレフィックスなどの名前付け規則を採用して、コンテンツをまとめておくことができます。

Skills read and write from enrichment tree

ナレッジストアのメリット

ナレッジストアの主な利点は、コンテンツに柔軟にアクセスできることと、データを形成する機能という 2 つの点にあります。

Azure AI 検索のクエリを介してアクセスする必要がある検索インデックスとは異なり、ナレッジストアには、Azure Storage への接続をサポートする任意のツール、アプリ、プロセスからアクセスできます。この柔軟性によって、エンリッチメントパイプラインによって生成された、分析およびエンリッチメントされたコンテンツを消費するための新しいシナリオが開きます。

データをエンリッチする同じスキルセットを、データの形成にも使用できます。 Power BI のようなツールは、テーブルの方が適していますが、データサイエンスワークロードには BLOB 形式の複雑なデータ構造が必要になる場合があります。スキルセットに Shaper スキルを追加すると、データのシェイプを制御できるようになります。そして、このシェイプをテーブルや BLOB などのプロジェクションに渡すことで、データの使用目的に沿った物理的なデータ構造を作成することができます。

次のビデオでは、これらの利点の両方について説明します。

ナレッジストアの定義

ナレッジストアは、スキルセット定義内で定義されており、2 つのコンポーネントがあります。

Azure ストレージの接続文字列
ナレッジストアがテーブル、オブジェクト、ファイルのいずれで構成されているかを決定するプロジェクション。プロジェクション要素は配列です。 1 つのナレッジストア内に、テーブル、オブジェクト、ファイルの組み合わせを複数セット作成することができます。
```
"knowledgeStore": {
    "storageConnectionString":"<YOUR-AZURE-STORAGE-ACCOUNT-CONNECTION-STRING>",
    "projections":[
       {
          "tables":[ ],
          "objects":[ ],
          "files":[ ]
       }
    ]
}
```

この構造体で指定するプロジェクションの種類は、ナレッジストアが使用するストレージの種類を決定しますが、その構造体は決定しません。テーブル、オブジェクト、およびファイルのフィールドは、ナレッジストアをプログラムで作成する場合は Shaper スキルの出力によって決定され、ポータルを使用している場合はデータのインポートウィザードによって決定されます。

tables は、エンリッチメントされたコンテンツを Table Storage に投影します。分析ツールへの入力のために表形式のレポート構造が必要な場合や、データフレームとして他のデータストアにエクスポートする場合は、テーブルプロジェクションを定義します。同じプロジェクショングループ内の複数の tables を指定して、エンリッチメントされたドキュメントのサブセットまたは断面を取得することができます。同じプロジェクショングループ内では、テーブルのリレーションシップが保持されるため、すべてのテーブルを操作できます。

プロジェクションされたコンテンツは集計または正規化されません。次のスクリーンショットは、キーフレーズで並べ替えられたテーブルを示しており、隣接する列に親ドキュメントが示されています。インデックス作成中のデータインジェストとは対照的に、言語分析やコンテンツの集計はありません。複数形と大文字と小文字の違いは、一意のインスタンスと見なされます。
objects では、JSON ドキュメントを BLOB ストレージに投影します。 object の物理的表現は、エンリッチメントされたドキュメントを表す階層型の JSON 構造体です。
files では、イメージファイルを BLOB ストレージに投影します。 file は、ドキュメントから抽出され、BLOB ストレージにそのまま転送されるイメージです。 "ファイル" という名前ですが、ファイルストレージではなく Blob Storage に表示されます。

ナレッジストアの作成

ナレッジストアを作成するには、ポータルまたは API を使用します。

Azure Storage、スキルセット、インデクサーが必要になります。インデクサーには検索インデックスが必要なので、インデックス定義も指定する必要があります。

完成したナレッジストアへの最短ルートとしては、ポータルアプローチを採用してください。または、オブジェクトがどのように定義され、関連しているかをより深く理解するには、REST API を選択します。

データのインポート ウィザードを使用して、4 つの手順で最初のナレッジストアを作成します。

エンリッチするデータを含むデータソースを定義します。
スキルセットを定義します。スキルセットにより、エンリッチメントステップとナレッジストアが指定されます。
インデックススキーマを定義します。これは必要ない場合もありますが、インデクサーでは必要です。このウィザードではインデックスを推測できます。
ウィザードの完了。この最後のステップで、抽出、エンリッチメント、ナレッジストアの作成が行われます。

このウィザードを使用すると、いくつかのタスクを自動化できます。具体的には、整形とプロジェクションの両方 (Azure Storage 内の物理データ構造の定義) が作成されます。

REST を使用したナレッジストアの作成に関する記事は、このナレッジストアのコレクションに属するオブジェクトと要求について説明するチュートリアルです。

REST API バージョン 2020-06-30 以上を使用すると、スキルセットに追加してナレッジストアを作成できます。

スキルセット内:

Azure Storage (テーブル、オブジェクト、ファイル) に組み込むプロジェクションを指定する
スキルセットに Shaper スキルを含め、プロジェクションのスキーマとコンテンツを決定する
名前付き図形をプロジェクションに割り当てる

アプリに接続する

エンリッチされたコンテンツがストレージに存在するようになると、Azure Blob に接続する任意のツールまたはテクノロジを使用して、コンテンツを探索、分析、または使用できます。次の一覧が開始点です。

エンリッチされたドキュメント構造とコンテンツを表示するための Azure portal の Storage Explorer またはストレージブラウザー (プレビュー)。これは、ナレッジストアのコンテンツを表示するためのベースラインツールと考えてください。
レポートと分析のための Power BI。
さらに操作するための Azure Data Factory。

コンテンツのライフサイクル

インデクサーとスキルセットを実行するたび、スキルセットまたは基になるソースデータが変更された場合、ナレッジストアが更新されます。インデクサーによって取得された変更は、エンリッチメントプロセスを通じてナレッジストア内のプロジェクションに反映され、投影されたデータが元のデータソース内のコンテンツの現在の表現になります。

Note

プロジェクション内のデータを編集することができますが、ソースデータ内のドキュメントが更新された場合、次のパイプライン呼び出しですべての編集が上書きされます。

ソースデータの変更

変更の追跡をサポートするデータソースの場合、インデクサーは新規および変更されたドキュメントを処理し、既に処理されている既存のドキュメントをバイパスします。タイムスタンプ情報はデータソースによって異なりますが、BLOB コンテナーでは、インデクサーによって lastmodified の日付が確認され、取り込む必要がある BLOB が特定されます。

スキルセットの変更

スキルセットに変更を加える場合は、エンリッチされたドキュメントのキャッシュを有効にして、可能な限り既存のエンリッチメントを再利用する必要があります。

増分キャッシュを使用しない場合、インデクサーは常に高いウォーターマークの順に逆戻りせずドキュメントを処理します。 BLOB の場合、インデクサーは、インデクサーの設定やスキルセットに対する変更に関係なく、lastModified で並べ替えた BLOB を処理します。スキルセットを変更した場合、以前に処理されたドキュメントは、新しいスキルセットを反映するように更新されません。スキルセットの変更後に処理されたドキュメントでは新しいスキルセットが使用され、その結果、インデックスドキュメントには古いスキルセットと新しいスキルセットが混在します。

増分キャッシュを使用する場合、スキルセットの更新後に、インデクサーはスキルセットの変更の影響を受けないエンリッチメントを再利用します。アップストリームエンリッチメントは、変更されたスキルから独立して分離されたエンリッチメントと同様に、キャッシュからプルされます。

削除

インデクサーは、Azure Storage 内の構造とコンテンツを作成および更新しますが、それらを削除しません。インデクサーまたはスキルセットが削除された場合でも、プロジェクションは引き続き存在します。ストレージアカウントの所有者は、不要になったプロジェクションを削除する必要があります。

次のステップ

ナレッジストアは、エンリッチメントされたドキュメントを永続化する手段として、スキルセットを設計する際に役立つほか、Azure Storage アカウントにアクセスする機能を備えた、あらゆるクライアントアプリケーションから利用する新しい構造やコンテンツを作成する際にも役立てることができます。

エンリッチされたドキュメントを作成する最も簡単なアプローチは、ポータルを使用することですが、REST クライアントと REST API の方が、オブジェクトがプログラムでどのように作成され、参照されるのかについて深く理解することができます。

REST を使用してナレッジストアを作成する

Azure AI Search 内のナレッジ ストア

ナレッジ ストアのメリット

ナレッジ ストアの定義

ナレッジ ストアの作成