電子情報開示 (Premium) での予測コーディングについて説明します (プレビュー)

電子情報開示 (Premium) の予測コーディング モジュールでは、インテリジェントな機械学習機能を使用して、レビューするコンテンツの量を減らすことができます。 予測コーディングを使用すると、大量のケース コンテンツを、レビューの優先順位を付けることができる関連項目のセットに減らし、カリングすることができます。 これは、レビュー セット内の最も関連性の高い項目のレビューに優先順位を付けるのに役立つ独自の予測コーディング モデルを作成してトレーニングすることで実現されます。

予測コーディング モジュールは、レビュー セット内でモデルを管理する複雑さを合理化し、電子情報開示 (Premium) の機械学習機能を迅速に使用できるように、モデルをトレーニングするための反復的なアプローチを提供するように設計されています。 作業を開始するには、モデルを作成し、50 個の項目に関連性のある項目または関連性のない項目としてラベルを付けることができます。 システムでは、このトレーニングを使用して、レビュー セット内のすべての項目に予測スコアを適用します。 これにより、予測スコアに基づいて項目をフィルター処理できます。これにより、最も関連性の高い (または関連性のない) 項目を最初に確認できます。 精度が高くリコール率の高いモデルをトレーニングする場合は、モデルが安定するまで、後続のトレーニング ラウンドで項目のラベル付けを続けることができます。

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータ セキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンス ポータルのトライアル ハブで今すぐ開始してください。 サインアップと試用期間の詳細については、こちらをご覧ください。

予測コーディング ワークフロー

各ステップ予測コーディング ワークフローの概要と説明を次に示します。 予測コーディング プロセスの概念と用語の詳細な説明については、「 予測コーディング リファレンス」を参照してください。

予測コーディング ワークフロー。

  1. レビュー セットに新しい予測コーディング モデルを作成します。 最初の手順は、レビュー セットに新しい予測コーディング モデルを作成することです。 モデルを作成するには、レビュー セットに少なくとも 2,000 個の項目が必要です。 モデルを作成すると、 コントロール セットとして使用する項目の数が決定されます。 コントロール セットは、トレーニング プロセス中に使用され、トレーニング ラウンド中に実行するラベル付けを使用して、モデルが項目に割り当てる予測スコアを評価します。 コントロール セットのサイズは、レビュー セット内の項目の数と、モデルの作成時に設定される信頼レベルとエラー値の余白に基づきます。 コントロール セット内の項目は変更されず、ユーザーを識別できません。

    詳細については、「 予測コーディング モデルを作成する」を参照してください。

  2. 最初のトレーニング ラウンドを完了するには、項目に関連性の高いラベルを付けるか、関連性のない項目としてラベルを付けます。 次の手順では、トレーニングの最初のラウンドを開始してモデルをトレーニングします。 トレーニング ラウンドを開始すると、モデルは、トレーニング セットと呼ばれるレビュー セットから追加の項目をランダムに選択 します。 これらの項目 (コントロール セットとトレーニング セットの両方) が表示され、それぞれに "関連" または "関連性なし" としてラベルを付けることができます。 関連性はアイテム内のコンテンツに基づいており、ドキュメント メタデータには基づいていません。 トレーニング ラウンドでラベル付けプロセスを完了すると、トレーニング セット内の項目にラベルを付けた方法に基づいてモデルが "学習" されます。 このトレーニングに基づいて、モデルはレビュー セット内の項目を処理し、それぞれに予測スコアを適用します。

    詳細については、「 予測コーディング モデルのトレーニング」を参照してください。

  3. レビュー セット内のアイテムに予測スコア フィルターを適用します。 前のトレーニング ステップが完了したら、次の手順では、レビューの項目に予測スコア フィルターを適用して、モデルが "最も関連性が高い" と判断した項目を表示します (または、予測フィルターを使用して"関連性のない" 項目を表示することもできます)。 予測フィルターを適用する場合は、フィルター処理する予測スコアの範囲を指定します。 予測スコアの範囲は 0 から 1 の間にあり、 0 は "関連性がありません" で 、1 は関連性があります。 一般に、予測スコアが 0 から 0.5 の項目は "関連性がありません" と見なされ、予測スコアが 0.5 から 1 の間の項目は関連性が高いと見なされます。

    詳細については、「 レビュー セットに予測フィルターを適用する」を参照してください。

  4. モデルが安定するまで、より多くのトレーニング ラウンドを実行します。 予測の精度が高く、リコール率が高いモデルを作成する場合は、追加のトレーニング ラウンドを実行できます。 再現率 は、モデルが予測した項目のうち、実際に関連する項目 (トレーニング中に関連としてマークされたもの) の割合を測定します。 再現率スコアの範囲は 0 から 1 です1 に近いスコアは、モデルがより関連性の高い項目を識別することを示します。 新しいトレーニング ラウンドでは、新しいトレーニング セットに追加の項目にラベルを付けます。 そのトレーニング ラウンドを完了すると、トレーニング セット内のラベル付け項目の最新のラウンドからの新しい学習に基づいてモデルが更新されます。 モデルはレビュー セット内の項目を再び処理し、新しい予測スコアを適用します。 モデルが安定するまでトレーニング ラウンドの実行を続けることができます。 最新のトレーニングラウンド後のチャーン率が 5% 未満の場合、モデルは安定していると見なされます。 チャーン率 は、トレーニング ラウンド間で予測スコアが変更されたレビュー セット内のアイテムの割合として定義されます。 予測コーディング ダッシュボードには、モデルの安定性を評価するのに役立つ情報と統計情報が表示されます。

  5. "最終的な" 予測スコア フィルターを適用して、レビューに優先順位を付けるセット アイテムをレビューします。 すべてのトレーニング ラウンドを完了し、モデルを安定させると、最後の手順は、関連する項目と関連しない項目のレビューに優先順位を付けるために、レビュー セットに最終的な予測スコアを適用することです。 これは手順 3 で実行したタスクと同じですが、この時点ではモデルは安定しており、これ以上トレーニング ラウンドを実行する予定はありません。