予測コーディングリファレンス (プレビュー)

[アーティクル]
10/01/2023

この記事では、Microsoft Purview eDiscovery (Premium) の予測コーディングツールの主要な概念とメトリックについて説明します。この記事のセクションはアルファベット順に一覧表示されます。

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータセキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンスポータルのトライアルハブで今すぐ開始してください。サインアップと試用期間の詳細については、こちらをご覧ください。

信頼度

信頼レベルは、予測コーディングモデルを作成するときの高度な設定です。モデルのパフォーマンスメトリック (リッチネス、精度、再現率など) が、モデルがレビューセット内の項目に割り当てる予測スコアの真の値を表す指定された範囲内 (モデルに対して定義された誤差のマージンが決定されます) 内に収まるように定義します。信頼レベルとエラーのマージンの値は、コントロールセットに含まれる項目の数を判断するのにも役立ちます。信頼度レベルの既定値は 0.95% または 95% です。

コントロールセット

制御セットは、予測コーディングモデルのトレーニングプロセス中に使用されます。コントロールセットは、トレーニングラウンド中に実行するラベル付けを使用して、モデルが項目に割り当てる予測スコアを評価します。コントロールセットのサイズは、レビューセット内の項目の数と、モデルの作成時に設定される信頼レベルとエラー値の余白に基づきます。コントロールセット内の項目は変更されず、ユーザーを識別できません。コントロールセット内の項目の合計数は、トレーニングラウンドのポップアップページに表示されます。

コントロールセットの混同行列

トレーニングラウンドを完了すると、モデルは、トレーニングラウンド中にラベル付けしたコントロールセット内の 10 個の項目に予測スコアを割り当てます。このモデルでは、これらの 10 項目の予測スコアと、トレーニングラウンド中にアイテムに割り当てた実際のラベルが比較されます。この比較に基づいて、モデルは次の分類を識別して、モデルの予測パフォーマンスを評価します。

Label	モデルは、項目が関連すると予測します	モデルは、項目が関連性を示さないと予測します
関連するレビュー担当者ラベルアイテム	真陽性	誤検知
レビュー担当者ラベルアイテムが関連性のないものとして	False の負数	True 負

これらの比較に基づいて、モデルは F スコア、精度、再現率のメトリックの値と、それぞれの誤差のマージンを導き出します。マトリックスの混同の種類の数は、トレーニングラウンドのポップアップページに表示されます。

F スコア

F スコアは、精度と再現率のメトリックのスコアの加重平均です。このメトリックのスコアの範囲は 0 から 1 です。 1 に近いスコアは、モデルが関連する項目をより正確に検出することを示します。 F スコアメトリックは、モデルダッシュボードと各トレーニングラウンドのポップアップページに表示されます。

エラーの余白

エラーのマージンは、予測コーディングモードを作成するときの詳細設定です。コントロールセット内の項目のランダムサンプリングから派生したパフォーマンスメトリック (リッチネス、精度、再現率など) のエラーの程度を指定します。誤差のマージンを小さくするには、モデルのパフォーマンスメトリックがより小さい範囲に収まるように、より大きなコントロールセットが必要です。誤差と信頼度レベルの余白の値は、コントロールセットに含まれる項目の数を決定するのにも役立ちます。エラーの余白の既定値は 0.05% または 5% です。

モデルの安定性

モデルの安定性は、レビューセット内のドキュメントが関連性があるかどうかを正確に予測するモデルの能力を示します。モデルが不安定な場合は、モデルの安定性を含めるために、より多くのトレーニングラウンドを実行する必要があります。モデルが安定している場合は、これ以上トレーニングラウンドを実行する必要がない場合があります。モデルダッシュボードは、モデルの安定性の現在の状態を示します。モデルが安定している場合、パフォーマンスメトリックは、信頼レベルとエラーのマージンの設定と一致するレベルに達しました。

転覆率

転覆率は、トレーニングラウンド間で予測スコアが変更されたレビューセット内の項目の割合です。モデルは、転覆率が 5% 未満の場合に安定していると見なされます。超過率メトリックは、モデルダッシュボードと各トレーニングラウンドのポップアップページに表示されます。最初のトレーニングラウンドの転覆率は 0 です。これは、前の予測スコアを覆す必要がないためです。

精度

精度メトリックは、モデルが関連すると予測された項目の中で関連する項目の割合を測定します。つまり、コントロール内の項目は、レビュー担当者がラベルを付け、モデルによって関連性が高いと予測される場所に設定されます。このメトリックのスコアの範囲は 0 から 1 です。 1 に近いスコアは、モデルが関連しない項目を少なく識別することを示します。精度メトリックは、モデルダッシュボードと各トレーニングラウンドのポップアップページに表示されます。

予測スコア

これは、モデルがレビューセット内の各ドキュメントに割り当てるスコアです。スコアは、トレーニングラウンドからのモデルの学習と比較して、ドキュメントの関連性に基づいています。一般に、予測スコアが 0 ~ 0.5 の項目は関連しないと見なされ、予測スコアが 0.5 から 1 の項目は関連と見なされます。予測スコアは、ドキュメントメタデータフィールドに含まれています。予測フィルターを使用して、指定した予測範囲内にあるレビューセット内の項目を表示できます。

リコール

呼び出しメトリックは、関連する項目の中でモデルが関連していると予測された項目の割合を測定します。つまり、予測されたモデルがレビュー担当者によって関連項目としてラベル付けされたコントロールセット内の関連項目も含まれます。このメトリックのスコアの範囲は 0 から 1 です。 1 に近いスコアは、モデルが関連する項目の大部分を識別することを示します。呼び出しメトリックは、モデルダッシュボードと各トレーニングラウンドのポップアップページに表示されます。

レビューセット

レビューセットは、予測コーディングモデルのスコープを提供します。レビューセットの新しいモデルを作成すると、コントロールセットとトレーニングセットの項目がレビューセットから選択されます。モデルが予測スコアを割り当てると、レビュー内の項目にそれらのスコアが割り当てられます。予測コーディングモデルを作成する前に、すべての項目をレビューセットに追加する必要があります。モデルの作成後に項目を追加した場合、それらの項目には予測スコアは割り当てられません。

豊かさ

リッチネスメトリックは、モデルが関連として予測するレビューセット項目の割合を測定します。このメトリックのスコアの範囲は 0 から 1 です。リッチネスメトリックがモデルダッシュボードに表示されます。

サンプリングされた項目

サンプリングされた項目という用語は、予測コーディングモデルを作成するときに選択され、コントロールセットに関連付けられているレビューセット (テキストを含む) 内の項目のランダムなサンプルへの参照です。トレーニングラウンドごとに、項目のランダムなサンプルも選択されます。モデルのコントロールセットに対して選択された項目は、その同じモデルのトレーニングセットには含まれません。逆も当てはまります。トレーニングセット項目はコントロールセットに含まれません。

トレーニングセット

モデルは、レビューセットから項目をランダムに選択し、トレーニングセットに追加します。トレーニングラウンド中に、トレーニングセットの項目 (コントロールセットの項目に加えて) が表示され、それぞれに "関連" または "関連性なし" としてラベルを付けることができます。このラベル付けまたは "トレーニング" プロセスは、モデルがレビューのどの項目が関連しているか、関連しないかを予測する方法を学習するのに役立ちます。トレーニングラウンドを実行するたびに、モデルはレビューからさらに項目を選択し、そのトレーニングラウンドのトレーニングセットに追加します。コントロールセットの項目がトレーニングセットに対して選択されることはありません。

予測コーディングリファレンス (プレビュー)

信頼度

コントロールセット

コントロールセットの混同行列

F スコア

エラーの余白

モデルの安定性

転覆率

精度

予測スコア

リコール

レビューセット

豊かさ

サンプリングされた項目

トレーニングセット

フィードバック

フィードバック

その他のリソース

予測コーディング リファレンス (プレビュー)

信頼度

コントロール セット

コントロール セットの混同行列

F スコア

エラーの余白

モデルの安定性

転覆率

精度

予測スコア

リコール

レビュー セット

豊か さ

サンプリングされた項目

トレーニング セット

フィードバック

フィードバック

その他のリソース

予測コーディングリファレンス (プレビュー)

コントロールセット

コントロールセットの混同行列

レビューセット

豊かさ

トレーニングセット