電子情報開示 (Premium) での予測コーディングについて説明します (プレビュー)

[アーティクル]
10/01/2023

電子情報開示 (Premium) の予測コーディングモジュールでは、インテリジェントな機械学習機能を使用して、レビューするコンテンツの量を減らすことができます。予測コーディングを使用すると、大量のケースコンテンツを、レビューの優先順位を付けることができる関連項目のセットに減らし、カリングすることができます。これは、レビューセット内の最も関連性の高い項目のレビューに優先順位を付けるのに役立つ独自の予測コーディングモデルを作成してトレーニングすることで実現されます。

予測コーディングモジュールは、レビューセット内でモデルを管理する複雑さを合理化し、電子情報開示 (Premium) の機械学習機能を迅速に使用できるように、モデルをトレーニングするための反復的なアプローチを提供するように設計されています。作業を開始するには、モデルを作成し、50 個の項目に関連性のある項目または関連性のない項目としてラベルを付けることができます。システムでは、このトレーニングを使用して、レビューセット内のすべての項目に予測スコアを適用します。これにより、予測スコアに基づいて項目をフィルター処理できます。これにより、最も関連性の高い (または関連性のない) 項目を最初に確認できます。精度が高くリコール率の高いモデルをトレーニングする場合は、モデルが安定するまで、後続のトレーニングラウンドで項目のラベル付けを続けることができます。

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータセキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンスポータルのトライアルハブで今すぐ開始してください。サインアップと試用期間の詳細については、こちらをご覧ください。

予測コーディングワークフロー

各ステップ予測コーディングワークフローの概要と説明を次に示します。予測コーディングプロセスの概念と用語の詳細な説明については、「予測コーディングリファレンス」を参照してください。

予測コーディングワークフロー。

レビューセットに新しい予測コーディングモデルを作成します。最初の手順は、レビューセットに新しい予測コーディングモデルを作成することです。モデルを作成するには、レビューセットに少なくとも 2,000 個の項目が必要です。モデルを作成すると、 コントロールセットとして使用する項目の数が決定されます。コントロールセットは、トレーニングプロセス中に使用され、トレーニングラウンド中に実行するラベル付けを使用して、モデルが項目に割り当てる予測スコアを評価します。コントロールセットのサイズは、レビューセット内の項目の数と、モデルの作成時に設定される信頼レベルとエラー値の余白に基づきます。コントロールセット内の項目は変更されず、ユーザーを識別できません。

詳細については、「予測コーディングモデルを作成する」を参照してください。
最初のトレーニングラウンドを完了するには、項目に関連性の高いラベルを付けるか、関連性のない項目としてラベルを付けます。次の手順では、トレーニングの最初のラウンドを開始してモデルをトレーニングします。トレーニングラウンドを開始すると、モデルは、トレーニングセットと呼ばれるレビューセットから追加の項目をランダムに選択 します。これらの項目 (コントロールセットとトレーニングセットの両方) が表示され、それぞれに "関連" または "関連性なし" としてラベルを付けることができます。関連性はアイテム内のコンテンツに基づいており、ドキュメントメタデータには基づいていません。トレーニングラウンドでラベル付けプロセスを完了すると、トレーニングセット内の項目にラベルを付けた方法に基づいてモデルが "学習" されます。このトレーニングに基づいて、モデルはレビューセット内の項目を処理し、それぞれに予測スコアを適用します。

詳細については、「予測コーディングモデルのトレーニング」を参照してください。
レビューセット内のアイテムに予測スコアフィルターを適用します。前のトレーニングステップが完了したら、次の手順では、レビューの項目に予測スコアフィルターを適用して、モデルが "最も関連性が高い" と判断した項目を表示します (または、予測フィルターを使用して"関連性のない" 項目を表示することもできます)。予測フィルターを適用する場合は、フィルター処理する予測スコアの範囲を指定します。予測スコアの範囲は 0 から 1 の間にあり、 0 は "関連性がありません" で、1 は関連性があります。一般に、予測スコアが 0 から 0.5 の項目は "関連性がありません" と見なされ、予測スコアが 0.5 から 1 の間の項目は関連性が高いと見なされます。

詳細については、「レビューセットに予測フィルターを適用する」を参照してください。
モデルが安定するまで、より多くのトレーニングラウンドを実行します。予測の精度が高く、リコール率が高いモデルを作成する場合は、追加のトレーニングラウンドを実行できます。 再現率 は、モデルが予測した項目のうち、実際に関連する項目 (トレーニング中に関連としてマークされたもの) の割合を測定します。再現率スコアの範囲は 0 から 1 です。 1 に近いスコアは、モデルがより関連性の高い項目を識別することを示します。新しいトレーニングラウンドでは、新しいトレーニングセットに追加の項目にラベルを付けます。そのトレーニングラウンドを完了すると、トレーニングセット内のラベル付け項目の最新のラウンドからの新しい学習に基づいてモデルが更新されます。モデルはレビューセット内の項目を再び処理し、新しい予測スコアを適用します。モデルが安定するまでトレーニングラウンドの実行を続けることができます。最新のトレーニングラウンド後のチャーン率が 5% 未満の場合、モデルは安定していると見なされます。 チャーン率 は、トレーニングラウンド間で予測スコアが変更されたレビューセット内のアイテムの割合として定義されます。予測コーディングダッシュボードには、モデルの安定性を評価するのに役立つ情報と統計情報が表示されます。
"最終的な" 予測スコアフィルターを適用して、レビューに優先順位を付けるセットアイテムをレビューします。すべてのトレーニングラウンドを完了し、モデルを安定させると、最後の手順は、関連する項目と関連しない項目のレビューに優先順位を付けるために、レビューセットに最終的な予測スコアを適用することです。これは手順 3 で実行したタスクと同じですが、この時点ではモデルは安定しており、これ以上トレーニングラウンドを実行する予定はありません。

電子情報開示 (Premium) での予測コーディングについて説明します (プレビュー)

予測コーディングワークフロー

フィードバック

フィードバック

その他のリソース

電子情報開示 (Premium) での予測コーディングについて説明します (プレビュー)

予測コーディング ワークフロー

フィードバック

フィードバック

その他のリソース

予測コーディングワークフロー