QnA Maker のナレッジベースをテストする

[アーティクル]
01/19/2024

QnA Maker のナレッジベースをテストすることは、回答の正確性を高めるという反復的なプロセスの重要な要素です。ナレッジベースのテストは、編集機能も備えた強化された会話インターフェイスを通じて行うことができます。

Note

QnA Maker サービスは、2025 年 3 月 31 日に廃止される予定です。 Azure AI Language の一部として、質問応答機能の新しいバージョンが提供されました。言語サービス内の質問応答機能については、質問応答に関する記事を参照してください。 QnA Maker の新しいリソースは、2022 年 10 月 1 日以降作成できません。既存の QnA Maker のナレッジベースを質問応答に移行する方法については、移行ガイドを参照してください。

QnA Maker ポータルで対話形式でテストする

[My knowledge bases](マイナレッジベース) ページで目的のナレッジベースの名前を選択して、ナレッジベースにアクセスします。
スライド式の [Test](テスト) パネルにアクセスするには、アプリケーションの上部パネルにある [Test](テスト) を選択します。
テキストボックスにクエリを入力して Enter キーを押します。
ナレッジベースから、最も適合した回答が応答として返されます。

テストパネルのクリア

入力したすべてのテストクエリとその結果をテストコンソールからクリアするには、[テスト] パネルの左上隅の [やり直す] を選択します。

テストパネルを閉じる

[テスト] パネルを閉じるには、[テスト] ボタンをもう一度選択します。 [テスト] パネルが開いている間は、ナレッジベースのコンテンツを編集できません。

スコアの検査

テスト結果の詳細は、[検査] パネルで調べることができます。

回答の詳細を表示するには、スライド式の [テスト] パネルを開いた状態で [検査] を選択します。
[検査] パネルが表示されます。このパネルには、最もスコアの高い意図のほか、特定されたエンティティが含まれています。パネルには、選択された発話の結果が表示されます。

上位スコアの回答を修正する

最もスコアの高い回答に誤りがある場合は、正しい回答を一覧から選び、[Save and Train](保存してトレーニング) を選択します。

Correct the top scoring answer

代わりの質問を追加する

ある特定の回答に対して、代わりの質問形式を追加することができます。テキストボックスに代わりの回答を入力し、Enter キーを押してそれらを追加します。 [Save and Train](保存してトレーニング) を選択して更新内容を保存します。

Add alternate questions

新しい回答の追加

一致した既存の回答に誤りがあった場合や、ナレッジベースに回答が存在しない (適切な一致が KB に見つからない) 場合は、新しい回答を追加することができます。

回答一覧の一番下で、テキストボックスに新しい回答を入力し、Enter を押すと追加できます。

その回答を保持するには、[Save and Train](保存してトレーニング) を選択してください。これでナレッジベースには、質問とその回答のペアが新たに追加されたことになります。

Note

ナレッジベースに対するすべての編集は、[Save and Train](保存してトレーニング) ボタンを押したときにのみ保存されます。

公開ナレッジベースをテストする

ナレッジベースの公開バージョンをテストウィンドウでテストできます。 KB を公開したら、[Published KB](公開済み KB) ボックスを選択し、公開済み KB から結果を取得するためのクエリを送信します。

Test against a published KB

ツールを使用したバッチテスト

次のことを行う場合は、バッチテストツールを使用します。:

一連の質問に対する上位の回答とスコアを判定する
一連の質問に対する予測される回答を検証する

前提条件

Azure サブスクリプション - 無料アカウントを作成する
QnA Maker サービスを作成するか、既存のサービス (言語には英語が使用されています) を使用する。
複数ターンサンプル .docx ファイルをダウンロードする
バッチテストツールをダウンロードし、.zip ファイルから実行可能ファイルを抽出する。

QnA Maker ポータルにサインインする

QnA Maker ポータルにサインインします。

複数ターンサンプル .docx ファイルから新しいナレッジベースを作成する

ツールバーから [Create a knowledge base](ナレッジベースの作成) を選択します。
既に QnA Maker リソースがあるため、手順 1. はスキップし、手順 2. に進んで、既存のリソース情報を選択します。
- Microsoft Entra ID
- Azure サブスクリプション名
- Azure QnA サービス名
- 言語 - 英語
実際のナレッジベースの名前として「Multi-turn batch test quickstart」と入力します。

[Step 4](手順 4) で、次の表を使用して設定を構成します。

設定	値
Enable multi-turn extraction from URLs, .pdf or .docx files (URL、.pdf、または .docx ファイルからの複数ターンの抽出を有効にする)	オン
Default answer text (既定の回答テキスト)	`Batch test - default answer not found.`
+ Add File (+ ファイルの追加)	前提条件に記載されている、ダウンロードした `.docx` ファイルを選択します。
Chit-chat (おしゃべり)	[Professional](専門家) を選択します

手順 5. で、 [Create your KB](KB の作成) を選択します。

作成プロセスが完了すると、ポータルに編集可能なナレッジベースが表示されます。

ナレッジベースを保存、トレーニング、および発行する

ツールバーから [Save and train](保存してトレーニング) を選択して、ナレッジベースを保存します。

ツールバーから [発行] を選択し、もう一度 [発行] を選択して、ナレッジベースを発行します。発行すると、パブリック URL エンドポイントからのクエリに対してナレッジベースを使用できるようになります。発行が完了したら、 [発行] ページに表示されているホスト URL とエンドポイントキー情報を保存します。

必要なデータ	例
発行されたホスト	`https://YOUR-RESOURCE-NAME.azurewebsites.net`
発行されたキー	`XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX` (`Endpoint` の後に表示されている 32 文字の文字列)
アプリケーション ID	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx` (`POST` の一部として表示されている 36 文字の文字列)

質問 ID を含むバッチテストファイルを作成する

バッチテストツールを使用するために、テキストエディターを使用して batch-test-data-1.tsv という名前のファイルを作成します。このファイルは UTF-8 形式である必要があり、タブで区切られた次の列が含まれている必要があります。

TSV 入力ファイルのフィールド	Notes	例
ナレッジベース ID	[発行] ページに表示されていたナレッジベース ID。 1 つのファイルで異なるナレッジベース ID を使用することにより、1 つのファイルで同じサービス内の複数のナレッジベースを同時にテストします。	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx` (`POST` の一部として表示されている 36 文字の文字列)
Question	ユーザーが入力すると思われる質問テキスト。最大 1,000 文字。	`How do I sign out?`
メタデータタグ	省略可能	`topic:power` では、`key:value` 形式を使用しています
上位のパラメーター	省略可能	`25`
期待される回答の ID	省略可能	`13`

このナレッジベースでは、必須の 2 列のみから成る 3 行をファイルに追加します。最初の列はご自分のナレッジベース ID で、2 番目の列は次の一連の質問です。

列 2 - 質問
`Use Windows Hello to sign in`
`Charge your Surface Pro 4`
`Get to know Windows 10`

これらの質問は、ナレッジベースからの正確な文言であり、信頼度スコアとして 100 が返されます。

次に、同じナレッジベース ID を使用して、これらの質問に似ているが、まったく同じではない質問をさらに 3 行追加します。

列 2 - 質問
`What is Windows Hello?`
`How do I charge the laptop?`
`What features are in Windows 10?`

注意事項

各列がタブ区切り記号でのみ区切られていることを確認します。列データの先頭または末尾にスペースが追加されていると、型またはサイズが正しくない場合に、プログラムから例外がスローされます。

バッチテストファイルは、Excel で開くと、次の画像のようになります。セキュリティのために、ナレッジベース ID は xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx に置き換えられています。実際のバッチテストでは、この列にご自分のナレッジベース ID が表示されていることを確認してください。

Input first version of .tsv file from batch test

バッチファイルをテストする

コマンドラインで次の CLI 形式を使用して、バッチテストプログラムを実行します。

YOUR-RESOURCE-NAME と ENDPOINT-KEY をサービス名とエンドポイントキーの実際の値に置き換えます。これらの値は、QnA Maker ポータルの [設定] ページで確認できます。

batchtesting.exe batch-test-data-1.tsv https://YOUR-RESOURCE-NAME.azurewebsites.net ENDPOINT-KEY out.tsv

テストが完了すると、out.tsv ファイルが生成されます。

Output first version of .tsv file from batch test

セキュリティのために、ナレッジベース ID は xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx に置き換えられています。実際のバッチテストでは、この列にご自分のナレッジベース ID が表示されます。

4 列目の信頼度スコアのテスト出力は、最初の 3 つの質問がそれぞれ、ナレッジベースでの表示とまったく同じであるため、返されるスコアが想定どおり 100 であることを示しています。最後の 3 つの質問は、質問の文言が新しいため、返される信頼度スコアは 100 ではありません。テストと実際のユーザーの両方のためにスコアを上げるには、ナレッジベースに代替の質問を追加する必要があります。

省略可能なフィールドを含めたテスト

形式とプロセスを理解したら、チャットログなどのデータソースからテストファイルを生成して、実際のナレッジベースに対して実行することができます。

データソースとプロセスは自動化されているので、さまざまな設定を使用してテストファイルを何度も実行して、正しい値を確認できます。

たとえば、チャットログがあり、どのチャットログテキストをどのメタデータフィールドに適用するかを確認する場合は、テストファイルを作成し、すべての行に対してメタデータフィールドを設定します。テストを実行し、メタデータに一致する行を確認します。通常、一致は正の値ですが、偽陽性の結果を確認する必要があります。偽陽性とは、メタデータと一致しているものの、テキストに基づくと、一致すべきではない行です。

入力バッチテストファイル内で省略可能なフィールドを使用する

次の表を使用して、省略可能なデータのフィールド値を見つける方法を理解してください。

列番号	省略可能な列	データの場所
3	metadata	既存の `key:value` ペアを確認するには、既存のナレッジベースをエクスポートします。
4	top	既定値の `25` が推奨されます。
5	質問と回答のセットの ID	ID 値を確認するには、既存のナレッジベースをエクスポートします。また、ID は出力ファイルでも返されることに注意してください。

ナレッジベースにメタデータを追加する

QnA ポータルの [編集] ページで、次の質問に対してメタデータ topic:power を追加します。

疑問がある場合

Charge your Surface Pro 4

Check the battery level

2 つの QnA ペアにこのメタデータセットがあります。

ヒント

各セットのメタデータと QnA ID を確認するには、ナレッジベースをエクスポートします。 [設定] ページを選択し、.xls ファイルとしてエクスポートすることを選択します。ダウンロードしたこのファイルを見つけ、Excel で開いて、メタデータと ID を確認します。
[Save and train](保存してトレーニング) を選択し、 [発行] ページを選択し、 [発行] ボタンを選択します。これらのアクションにより、バッチテストでこの変更を使用できるようになります。 [設定] ページからナレッジベースをダウンロードします。

ダウンロードしたファイルには、メタデータの正しい形式および正しい質問と回答のセットの ID が含まれています。これらのフィールドは、次のセクションで使用します。

疑問がある場合
Charge your Surface Pro 4
Check the battery level

2 つ目のバッチテストを作成する

バッチテストには、主に 2 つのシナリオがあります。

チャットログファイルの処理 - 以前に受けたことのない質問の上位の回答を確認します。最も一般的な状況は、チャットボットのユーザーからの質問など、クエリのログファイルを処理する必要がある場合です。必要な列のみを含むバッチファイルテストを作成します。このテストでは、各質問の上位の回答が返されます。これは、上位の回答が正しい回答であるという意味ではありません。このテストが完了したら、検証テストに移ります。
検証テスト - 期待される回答を検証します。このテストでは、バッチテスト内の質問および一致する期待される回答がすべて検証される必要があります。これには、手動プロセスが必要になる場合があります。

次の手順では、チャットログを処理するシナリオを想定しています。

省略可能なデータを含む新しいバッチテストファイル batch-test-data-2.tsv を作成します。元のバッチテストの入力ファイルから 6 行を追加した後、各行に対してメタデータ、上位、および QnA ペア ID を追加します。

チャットログからの新しいテキストをナレッジベースに照らして確認する自動プロセスをシミュレートするために、各列のメタデータを同じ値 (topic:power) に設定します。
もう一度テストを実行し、入力と出力のファイル名を変更して、2 つ目のテストであることを示します。

テスト結果と自動テストシステム

このテスト出力ファイルは、自動化された継続的なテストパイプラインの一部として解析できます。

この特定のテスト出力は、次のように読む必要があります。各行はメタデータでフィルター処理されており、各行がナレッジベース内のメタデータと一致しなかったため、一致しないこれらの行に対して既定の回答が返されました ([No good match found in the KB](KB で適切な一致が見つかりませんでした))。一致した行では、QnA ID とスコアが返されました。

期待される回答 ID と一致する行がないため、すべての行で [Incorrect](正しくない) というラベルが返されました。

これらの結果から、チャットログを受け取り、各行のクエリとしてそのテキストを使用できることが確認できます。データについて何も知らない場合、結果からは、後で使用できる、データに関する情報がたくさん得られます。

メタデータ
QnA ID
score

テストでメタデータを使用してフィルター処理するのは良い方法でしょうか。場合によります。テストシステムでは、各メタデータペアのテストファイルおよびメタデータペアのないテストを作成する必要があります。

リソースをクリーンアップする

ナレッジベースのテストを続行しない場合は、バッチファイルツールとテストファイルを削除します。

このナレッジベースを引き続き使用しない場合は、次の手順でナレッジベースを削除します。

QnA Maker ポータルで、トップメニューから [My Knowledge bases](マイナレッジベース) を選択します。
ナレッジベースの一覧で、このクイックスタートのナレッジベースの行にある [削除] アイコンを選択します。

このツールに関するリファレンスドキュメントには、次のものがあります。

ツールのコマンドラインの例
TSV 入力および出力ファイルの形式

次の手順

ナレッジベースの公開

QnA Maker のナレッジ ベースをテストする

QnA Maker ポータルで対話形式でテストする

テスト パネルのクリア

テスト パネルを閉じる

スコアの検査

上位スコアの回答を修正する

代わりの質問を追加する

新しい回答の追加

公開ナレッジ ベースをテストする

ツールを使用したバッチ テスト

前提条件

QnA Maker ポータルにサインインする

複数ターン サンプル .docx ファイルから新しいナレッジ ベースを作成する

ナレッジ ベースを保存、トレーニング、および発行する

質問 ID を含むバッチ テスト ファイルを作成する

バッチ ファイルをテストする