Azure AI Search 内の統合データのチャンキングと埋め込み

[アーティクル]
03/27/2024

重要

この機能はパブリックプレビュー段階にあり、追加使用条件の下で提供されます。この機能は、2023-10-01-Preview REST API でサポートされます。

統合ベクター化によって、データチャンキングとテキスト-to-ベクター埋め込みがインデクサーベースインデックス作成のスキルに追加されます。テキスト-to-ベクター変換もクエリに追加されます。

この機能は、プレビューのみ段階です。一般提供バージョンのベクトル検索と以前のプレビューバージョンでは、データのチャンキングとベクター化が外部のチャンキングとベクターのコンポーネントに依存しており、アプリケーションコードが各手順を操作し、調整する必要があります。このプレビュー版では、チャンキングとベクター化がスキルおよびインデクサーを通じてインデックス作成に組み込まれています。テキスト分割スキルを使用してデータをチャンクするスキルセットをセットアップして、それから AzureOpenAIEmbedding スキルまたはカスタムスキルを使用して埋め込みモデルを呼び出すことができます。インデックス作成時に使用されるあらゆるベクトル化を、テキストをベクターに変換するクエリで呼び出すこともできます。

インデックス作成の場合、統合ベクター化では以下が必要です。

サポートされるデータソースからデータを取得するインデクサー。
テキスト分割スキルを呼び出してデータをチャンクするスキルセットと、AzureOpenAIEmbedding スキルとデータをベクター化するためのカスタムスキルのいずれか。
チャンクおよびベクター化した内容を受け取るための 1 つ以上のインデックス。

クエリの場合:

インデックススキーマで定義され、ベクターフィールドに割り当てられて、自動的にクエリ時に使用されてテキストクエリをベクターに変換するベクター化。

ベクター変換は、テキスト-to-ベクターの一方向です。クエリと結果にはベクター-to-テキスト変換がありません (たとえば、ベクター結果を人間が読み取り可能な文字列に変換することはできません)。

コンポーネント図

次の図は、統合ベクター化の構成要素を示しています。

こちらが統合ベクター化のための構成要素のチェックリストです。

インデクサーベースのインデックス作成でサポートされているデータソース。
ベクターフィールドを指定するインデックスと、ベクターフィールドに割り当てられたベクター化定義。
データチャンキングのためのテキスト分割スキルを提供するスキルセットと、ベクター化のスキル (AzureOpenAiEmbedding スキルと、外部埋め込みモデルをポイントするカスタムスキルのいずれか)。
オプションとして、チャンクしたデータをセカンダリインデックスにプッシュするインデックスプロジェクション (スキルセットにも定義される)
埋め込みモデル (Azure OpenAI でデプロイされているか、HTTP エンドポイントを通じて提供される)。
プロセスをエンドツーエンドで進めるためのインデクサー。インデクサーでは、変更検出のスケジュール、フィールドマッピング、優先度も指定されます。

このチェックリストは統合ベクター化に重点を置いていますが、お持ちのソリューションはこのリストに限定されません。 AI エンリッチメントのためのスキルを増やし、ナレッジストアを作成し、セマンティックランク付けを追加し、関連性チューニングや他のクエリ機能を追加することができます。

可用性と料金

統合ベクター化の可用性は、埋め込みモデルに基づきます。 Azure OpenAI を使用している場合は、「リージョン別の提供状況」を確認してください。

カスタムスキルと Azure ホスティングメカニズム (Azure 関数アプリ、Azure Web アプリ、Azure Kubernetes など) を使用している場合は、リージョン別の製品ページで機能の可用性について確認してください。

データチャンキング (テキスト分割スキル) は無料で、すべての地域のすべての Azure AI サービスでご利用になれます。

Note

2019 年 1 月 1 日より前に作成された一部の古い検索サービスは、ベクトルワークロードをサポートしないインフラストラクチャにデプロイされています。ベクトルフィールドをスキーマに追加しようとしてエラーが表示された場合、それはサービスが古いためです。このような場合は、ベクトル機能を試すために新しい検索サービスを作成する必要があります。

統合ベクター化をサポートできるのはどんなシナリオですか?

大きなドキュメントをチャンクに再分割すると、ベクターおよび非ベクターシナリオに便利です。ベクターの場合、埋め込みモデルの入力制約に合わせるのにチャンクが役立ちます。非ベクターシナリオの場合、チャットスタイルの検索アプリで GPT がインデックス作成したチャンクからの応答をアセンブルしています。ベクトル化 (または非ベクトル化)されたチャンクをチャットスタイルの検索に使用できます。
フィールドのすべてがベクターフィールドであり、ドキュメント ID (検索インデックスに必要) が唯一の文字列フィールドであるベクターストアを構築します。ベクターストアにクエリを実行してドキュメント ID を取得し、ドキュメントのベクターフィールドを別のモデルに送信します。
ベクターおよびテキストフィールドを組み合わせて、セマンティックランク付けを使用した (または使用しない) ハイブリッド検索にします。統合ベクター化によってベクター検索でサポートされるシナリオのすべてが簡略化されます。

統合ベクター化を使用するのはどのようなときか

組み込み統合ベクター化サポートの Azure AI Studio を使用することをお勧めします。この方法でお客様のニーズが満たされない場合は、Azure AI Search のプログラマティックインターフェイスを使用して統合ベクター化を呼び出すインデクサーとスキルセットを作成することができます。

統合ベクター化の使用方法

クエリ専用ベクター化の場合:

インデックスにベクター化を追加します。インデックスにベクターを生成するために使用したのと同じ埋め込みモデルになるはずです。
ベクタープロファイルにベクター化を割り当て、それからベクタープロファイルをベクターフィールドに割り当てます。
ベクター化するテキスト文字列を指定するベクタークエリを作成します。

より一般的なシナリオ - インデックス作成時のデータのチャンキングとベクター化:

インデクサーベースのインデックス作成でサポートされているデータソースへのデータソース接続を作成します。
チャンキング用のテキスト分割スキルと、AzureOpenAIEmbeddingModel またはチャンクをベクター化するカスタムスキルを呼び出すスキルセットを作成します。
クエリ時のベクター化を指定し、それをベクターフィールドに割り当てるインデックスを作成します。
データの取得からスキルセット実行まで、インデックス作成を通してすべてを進めるためのインデクサーを作成します。

オプションとして、チャンクしたコンテンツが一方のインデックス上にあり、チャンクされていないコンテンツが別のインデックスにある高度なシナリオのためのセカンダリインデックスを作成します。チャンクしたインデックス (セカンダリインデックス) は RAG アプリで役立ちます。

ヒント

Azure portal で新しい [データのインポートとベクトル化] ウィザードを試して、コードを記述する前に統合ベクター化を探索します。

あるいは、同じワークフローを実行するための Jupyter ノートブックをセルごとに構成して、各手順がどう機能するかを調べます。

制限事項

Azure OpenAI の埋め込みモデルのクォータと制限について理解します。 Azure AI Search には再試行ポリシーがありますが、クォータを使い果たすと、再試行が失敗します。

Azure OpenAI の 1 分あたりトークンの制限は、モデルごと、サブスクリプションごとに設けられています。埋め込みモデルをクエリとインデックス作成の両ワークロードで使用している場合は、このことを覚えておいてください。可能であれば、ベストプラクティスに従ってください。ワークロードごとに埋め込みモデルを用意して、それらを別々のサブスクリプションでデプロイするようにしてください。

Azure AI Search では、サービスの制限がレベルおよびワークロード別にあることを忘れないでください。

最後に、次の機能は現在サポートされていません。

カスタマーマネージド暗号化キー
ベクター化への共有プライベートリンク接続
現在は、統合型データチャンキングおよびベクター化のためのバッチ処理がありません

統合ベクター化のメリット

統合ベクター化の重要メリットのいくつかを紹介します。

データチャンキングとベクター化の分離したパイプラインがありません。コードの書き込みと維持がより簡単です。
エンドツーエンドのインデックス作成を自動化します。ソース (Azure Storage、Azure SQL、Cosmos DB など) でデータが変更されると、インデクサーはこれらの更新を、パイプライン全体 (取得からドキュメントの解読まで) で、オプションの AI エンリッチメント、データチャンキング、ベクター化、インデックス作成を通じて進めることができます。
チャンクしたコンテンツをセカンダリインデックスに射影します。セカンダリインデックスは他の検索インデックス (フィールドや他のコンストラクトを持つスキーマ) のように作成されますが、インデクサーによりプライマリインデックスと並行して作成されます。各ソースドキュメントのコンテンツが、同じインデックス作成実行中に、プライマリおよびセカンダリインデックスのフィールドへ流れていきます。

セカンダリインデックスの目的は、データチャンキングおよび取得拡張生成 (RAG) アプリです。サイズの大きな PDF をソースドキュメントとして想定すると、プライマリインデックスには基本情報 (タイトル、日付、作成者、説明) があり、セカンダリインデックスにはコンテンツのチャンクがあります。データチャンクレベルのベクター化によって、関連する情報を見つけて (各チャンクが検索可能である) 関連する応答を返すのが、特にチャットスタイルの検索アプリでは簡単になります。

チャンク後のインデックス

チャンキングとは、コンテンツをより小さな管理可能部分 (チャンク) に分割することで、それらを別々に処理できるようにするプロセスです。チャンキングが必要になるのは最大入力サイズの埋め込みモデルや大型言語モデルでソースドキュメントが大きすぎるけれども、それによって RAG パターンやチャットスタイル検索でインデックス構造がよくなると考えられる場合です。

次の図は、チャンク後インデックス作成の構成要素を示しています。