Azure AI Search でセマンティッククエリを作成する

[アーティクル]
02/21/2024

この記事では、結果セットに対してセマンティックランク付けを呼び出し、意味的に最も関連性の高い結果をスタックの最上位に昇格させる方法について説明します。また、最も関連性の高い用語と語句を強調表示したセマンティックキャプションと、セマンティック回答を取得することもできます。

前提条件

セマンティックの順位付けを使用する Basic レベル以上の検索サービス。
セマンティック構成とリッチテキストコンテンツを使用する既存の検索インデックス。
機能の概要情報が必要な場合は、セマンティックランク付けを確認してください。

Note

キャプションと回答は、検索ドキュメント内のテキストから逐語的に抽出されます。セマンティックサブシステムは、コンピューター読み取りの理解を使用してキャプションまたは回答の特性を持つコンテンツを認識しますが、新しい文やフレーズは作成されません。このため、セマンティックランク付けには、説明または定義を含むコンテンツが最も適しています。生成された応答とチャットスタイルの対話を行う場合は、取得拡張生成 (RAG) に関する記事を参照してください。

クライアントを選択する

セマンティックランク付けをサポートする検索クライアントを選択します。次のことをお試しください。

インデックスデザイナーを使用してセマンティック構成を追加する Azure portal。
REST クライアントを使用した Visual Studio Code
Azure SDK for .NET
Azure SDK for Python
Azure SDK for Java
Azure SDK for JavaScript

クエリを設定する

この手順では、クエリ要求にパラメーターを追加します。正常に実行するには、クエリはフルテキスト検索 (search パラメーターを使用して文字列を渡す) である必要があり、インデックスにはリッチセマンティックコンテンツとセマンティック構成を含むテキストフィールドが含まれている必要があります。

検索エクスプローラーには、セマンティックの順位付けのオプションが含まれています。

Azure portal にサインインします。
検索インデックスを開き、[検索エクスプローラー] を選択します。
[クエリオプション] を選択します。セマンティック構成を既に定義している場合は、既定で選択されています。定義していない場合は、インデックスのセマンティック構成を作成します。
クエリ (例: "historic hotel with good food") を入力し、[検索] を選択します。

または、[JSON ビュー] を選択し、クエリエディターに定義を貼り付けます。

ビューに貼り付けることができるいくつかの JSON テキストを次に示します。

 {
     "queryType": "semantic",
     "search": "historic hotel with good food",
     "semanticConfiguration": "my-semantic-config",
     "answers": "extractive|count-3",
     "captions": "extractive|highlight-true",
     "highlightPreTag": "<strong>",
     "highlightPostTag": "</strong>",
     "select": "HotelId,HotelName,Description,Category",
     "count": true
 }

[ドキュメントの検索] を使用して要求を作成します。

応答には @search.rerankerScore が自動的に含められます。応答でキャプションまたは回答が必要な場合は、captions および answers を要求に追加します。

このセクションの次の例では、hotels-sample-index を使用してセマンティック回答およびキャプションを使用したセマンティックランク付けのデモを行います。

次の要求をテンプレートとして Web クライアントに貼り付けます。サービス名とインデックス名を有効な値に置き換えます。

POST https://[service name].search.windows.net/indexes/hotels-sample-index/docs/search?api-version=2023-11-01      
{
    "queryType": "semantic",
    "search": "newer hotel near the water with a great restaurant",
    "semanticConfiguration": "my-semantic-config",
    "answers": "extractive|count-3",
    "captions": "extractive|highlight-true",
    "highlightPreTag": "<strong>",
    "highlightPostTag": "</strong>",
    "select": "HotelId,HotelName,Description,Category",
    "count": true
}

"queryType" を "semantic" に設定します。

他のクエリでは、"queryType" を使用してクエリパーサーを指定します。セマンティックランク付けでは、"semantic" に設定します。 "search" フィールドには、単純な構文に準拠したクエリを指定できます。
単純な構文に基づいて、"search" をフルテキスト検索クエリに設定します。セマンティックランク付けはフルテキスト検索の拡張機能であるため、このパラメーターは必須ではありませんが、null の場合は期待される結果は得られません。
"semanticConfiguration" を、インデックスに埋め込まれた定義済みのセマンティック構成に設定します。
"answers" を設定して、セマンティック回答を結果に含めるかどうかを指定します。現在、このパラメーターの有効な値は extractive だけです。回答は、最大 10 個を返すように構成できます。既定値は 1 です。 extractive|count-3 という例は、回答の数が 3 であることを示しています。

回答は、すべての要求で保証されるわけではありません。回答を得るには、クエリを質問のようにする必要があり、コンテンツには回答のようなテキストを含める必要があります。
"captions" を設定して、セマンティックキャプションを結果に含めるかどうかを指定します。現在、このパラメーターの有効な値は extractive だけです。キャプションは、ハイライトの有無に関係なく、結果を返すように構成できます。既定では、ハイライトが返されます。この例では、ハイライトのないキャプション extractive|highlight-false が返されます。

キャプションと回答の基本は、"semanticConfiguration" で参照されるフィールドです。これらのフィールドにかけられている結合制限は、2,000 個のトークン (あるいは約 20,000 の文字数) の範囲です。トークン数がこの限度を超えそうな場合は、テキスト分割スキルを使用したデータチャンキング手順を検討してください。この方法では、AI エンリッチメントパイプラインとインデクサーへの依存が取り入れられます。
キャプションに適用される既定の強調表示の書式をオーバーライドする場合は、"highlightPreTag" と "highlightPostTag" を設定します。

キャプションでは、ドキュメント内の重要な一説 (応答を要約する部分) に強調の書式設定が適用されます。既定値は、<em> です。書式設定の種類 (黄色の背景など) を指定する場合は、highlightPreTag と highlightPostTag を設定できます。
応答でどのフィールドが返されるかを指定するために "select" を設定し、インデックス内の一致数を返す "count" を設定します。これらのパラメーターを使用すると、要求の品質と応答の読みやすさが向上します。
クエリを実行して結果を返す要求を送信します。

QueryType または SemanticQuery を使用して、セマンティッククエリでセマンティックの順位付けを呼び出します。次の例は、Azure SDK チームの例です。

SearchResults<Hotel> response = await searchClient.SearchAsync<Hotel>(
    "Is there any hotel located on the main commercial artery of the city in the heart of New York?",
    new SearchOptions
    {
        SemanticSearch = new()
        {
            SemanticConfigurationName = "my-semantic-config",
            QueryCaption = new(QueryCaptionType.Extractive),
            QueryAnswer = new(QueryAnswerType.Extractive)
        },
        QueryLanguage = QueryLanguage.EnUs,
        QueryType = SearchQueryType.Semantic
    });

int count = 0;
Console.WriteLine($"Semantic Search Results:");

Console.WriteLine($"\nQuery Answer:");
foreach (QueryAnswerResult result in response.SemanticSearch.Answers)
{
    Console.WriteLine($"Answer Highlights: {result.Highlights}");
    Console.WriteLine($"Answer Text: {result.Text}");
}

await foreach (SearchResult<Hotel> result in response.GetResultsAsync())
{
    count++;
    Hotel doc = result.Document;
    Console.WriteLine($"{doc.HotelId}: {doc.HotelName}");

    if (result.SemanticSearch.Captions != null)
    {
        var caption = result.SemanticSearch.Captions.FirstOrDefault();
        if (caption.Highlights != null && caption.Highlights != "")
        {
            Console.WriteLine($"Caption Highlights: {caption.Highlights}");
        }
        else
        {
            Console.WriteLine($"Caption Text: {caption.Text}");
        }
    }
}
Console.WriteLine($"Total number of search results:{count}");

応答を評価する

最初の結果の上位 50 件の一致のみを意味的にランク付けすることができます。すべてのクエリと同様に、応答は、取得可能としてマークされているすべてのフィールド、または select パラメーターに指定されているフィールドのみで構成されます。応答には、元の関連性スコアが含まれます。また、要求の作成方法に応じて、カウントまたはバッチ結果が含まれる場合もあります。

セマンティックランク付けでは、意味的にランク付けされた新しい関連性スコア、強調表示されたプレーンテキストでの省略可能なキャプション、省略可能な回答という追加の要素が応答に含められます。結果にこれらの追加の要素が含まれていない場合は、クエリが正しく構成されていない可能性があります。問題のトラブルシューティングの最初の手順として、セマンティック構成をチェックし、それがインデックス定義とクエリの両方で指定されていることを確認します。

クライアントアプリでは、特定のフィールドの内容全体ではなく、キャプションを一致の説明として含めるように、検索ページを構成することができます。このアプローチは、検索結果ページにおいて個々のフィールドの密度が高すぎる場合に役立ちます。

上記のクエリ例に対する応答では、最上位の選択として次の一致が返されます。 "captions" プロパティがプレーンテキストと強調表示の各バージョンで設定されているため、キャプションが返されます。この例では回答が省略されています。この特定のクエリとコーパスに対してそれを特定できなかったためです。

"@odata.count": 35,
"@search.answers": [],
"value": [
    {
        "@search.score": 1.8810667,
        "@search.rerankerScore": 1.1446577133610845,
        "@search.captions": [
            {
                "text": "Oceanside Resort. Luxury. New Luxury Hotel. Be the first to stay. Bay views from every room, location near the pier, rooftop pool, waterfront dining & more.",
                "highlights": "<strong>Oceanside Resort.</strong> Luxury. New Luxury Hotel. Be the first to stay.<strong> Bay</strong> views from every room, location near the pier, rooftop pool, waterfront dining & more."
            }
        ],
        "HotelName": "Oceanside Resort",
        "Description": "New Luxury Hotel. Be the first to stay. Bay views from every room, location near the pier, rooftop pool, waterfront dining & more.",
        "Category": "Luxury"
    },
  ...
]

次のステップ

セマンティックの順位付けは、キーワード検索とベクトル検索を 1 つの要求と統合された応答に結合するハイブリッドクエリで使用できます。

セマンティックの順位付けを使用するハイブリッドクエリ

Azure AI Search でセマンティッククエリを作成する

前提条件

クライアントを選択する

関連性スコアリングをバイパスする機能を回避する

クエリを設定する

応答を評価する

次のステップ

その他のリソース

Azure AI Search でセマンティック クエリを作成する

前提条件

クライアントを選択する

関連性スコアリングをバイパスする機能を回避する

クエリを設定する

応答を評価する

次のステップ

その他のリソース

Azure AI Search でセマンティッククエリを作成する