予測コーディングモデルのトレーニング (プレビュー)

[アーティクル]
10/01/2023

Microsoft Purview eDiscovery (Premium) で予測コーディングモデルを作成した後、次の手順は、最初のトレーニングラウンドを実行して、レビューセット内の関連コンテンツと関連性のないコンテンツに関するモデルをトレーニングすることです。トレーニングの最初のラウンドを完了した後、後続のトレーニングラウンドを実行して、関連するコンテンツと関連性のないコンテンツを予測するモデルの能力を向上させることができます。

予測コーディングワークフローを確認するには、「電子情報開示 (Premium) での予測コーディングの詳細」を参照してください。

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータセキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンスポータルのトライアルハブで今すぐ開始してください。サインアップと試用期間の詳細については、こちらをご覧ください。

モデルをトレーニングする前に

トレーニングラウンド中に、ドキュメント内のコンテンツの関連性に基づいて、アイテムに [ 関連 ] または [関連しない ] としてラベルを付けます。メタデータフィールドの値に基づいて決定しないでください。たとえば、メールメッセージや Teams の会話の場合、メッセージの参加者にラベル付けの決定を基にしないでください。

初めてモデルをトレーニングする

Microsoft Purview コンプライアンスポータルで電子情報開示 (Premium) ケースを開き、[レビューセット] タブを選択します。
レビューセットを開き、[ Analytics>Manage 予測コーディング (プレビュー)] を選択します。
[ 予測コーディングモデル (プレビュー)] ページで 、トレーニングするモデルを選択します。
[ 概要 ] タブの [ ラウンド 1] で、[ 次のトレーニングラウンドを開始する] を選択します。

[ トレーニング ] タブが表示され、ラベルを付けるアイテムが 50 個含まれています。
各ドキュメントを確認し、閲覧ウィンドウの下部にある [ 関連] または [ 関連しない ] ボタンを選択してラベルを付けます。
50 個すべての項目にラベルを付けたら、[完了] を選択 します。

システムがラベル付けから "学習" し、モデルを更新するまでに数分かかります。このプロセスが完了すると、[予測コーディングモデル (プレビュー)] ページにモデルの状態が [準備完了] と表示されます。

追加のトレーニングラウンドを実行する

トレーニングの最初のラウンドを実行した後、前のセクションの手順に従って、後続のトレーニングラウンドを実行できます。唯一の違いは、トレーニングラウンドの数がモデルの [概要 ] タブで更新されることです。たとえば、最初のトレーニングラウンドを実行した後、[ 次のトレーニングラウンドを開始 する] を選択して、2 回目のトレーニングラウンドを開始できます。などなど。

各トレーニングラウンド (進行中のトレーニングと完了したトレーニングの両方) は、モデルの [ トレーニング ] タブに表示されます。トレーニングラウンドを選択すると、ラウンドの情報とメトリックを含むポップアップページが表示されます。

トレーニングラウンドを実行した後の動作

最初のトレーニングラウンドを実行すると、次のことを行うジョブが開始されます。

トレーニングセット内の 40 個の項目にラベルを付けた方法に基づいて、モデルはラベル付けから学習し、より正確になるように更新します。
次に、モデルはレビューセット全体の各項目を処理し、予測スコアを 0 (関連なし) から 1 (関連なし) の間で割り当てます。
モデルは、トレーニングラウンド中にラベル付けしたコントロールセット内の 10 個の項目に予測スコアを割り当てます。このモデルでは、これらの 10 項目の予測スコアと、トレーニングラウンド中にアイテムに割り当てた実際のラベルが比較されます。この比較に基づいて、モデルは次の分類 ( 制御セット混同行列と呼ばれます) を識別して、モデルの予測パフォーマンスを評価します。

Label	モデルは、項目が関連すると予測します	モデルは項目が関連しないと予測します
関連するレビュー担当者ラベルアイテム	真陽性	誤検知
レビュー担当者ラベルアイテムが関連性のないものとして	False の負数	True 負

これらの比較に基づいて、モデルは F スコア、精度、再現率のメトリックの値と、それぞれの誤差のマージンを導き出します。これらのモデルのパフォーマンスメトリックのスコアは、トレーニングラウンドのポップアップページに表示されます。これらのメトリックの詳細については、「予測コーディングリファレンス」を参照してください。

最後に、モデルは、次のトレーニングラウンドに使用される次の 50 個の項目を決定します。今回は、モデルでコントロールセットから 20 項目、レビューセットから 30 個の新しい項目を選択し、次のラウンドのトレーニングセットとして指定します。次のトレーニングラウンドのサンプリングは均一にサンプリングされません。モデルは、レビューセットからの項目のサンプリング選択を最適化して、予測があいまいな項目を選択します。つまり、予測スコアが 0.5 の範囲であることを意味します。このプロセスは、 バイアス選択と呼ばれます。

後続のトレーニングラウンドを実行した後の動作

後続のトレーニングラウンド (最初のトレーニングラウンドの後) を実行すると、モデルは次のことを行います。

モデルは、そのトレーニングのラウンドでトレーニングセットに適用したラベルに基づいて更新されます。
システムは、コントロールセット内の項目に対するモデルの予測スコアを評価し、スコアがコントロールセット内の項目のラベル付け方法と一致するかどうかをチェックします。評価は、すべてのトレーニングラウンドに対してコントロールセットからラベル付けされたすべての項目に対して実行されます。この評価の結果は、モデルの [ 概要 ] タブのダッシュボードに組み込まれます。
更新されたモデルは、レビューセット内のすべての項目を再処理し、各項目に更新された予測スコアを割り当てます。

次の手順

最初のトレーニングラウンドを実行した後は、より多くのトレーニングラウンドを実行するか、モデルの予測スコアフィルターをレビューセットに適用して、モデルが関連性が高いアイテムまたは関連性のないアイテムを表示できます。詳細については、「レビューセットに予測スコアフィルターを適用する」を参照してください。

予測コーディングモデルのトレーニング (プレビュー)

モデルをトレーニングする前に

初めてモデルをトレーニングする

追加のトレーニングラウンドを実行する

トレーニングラウンドを実行した後の動作

後続のトレーニングラウンドを実行した後の動作

次の手順

フィードバック

フィードバック

その他のリソース

予測コーディング モデルのトレーニング (プレビュー)

モデルをトレーニングする前に

初めてモデルをトレーニングする

追加のトレーニング ラウンドを実行する

トレーニング ラウンドを実行した後の動作

後続のトレーニング ラウンドを実行した後の動作

次の手順

フィードバック

フィードバック

その他のリソース

予測コーディングモデルのトレーニング (プレビュー)

追加のトレーニングラウンドを実行する

トレーニングラウンドを実行した後の動作

後続のトレーニングラウンドを実行した後の動作