予測コーディング モデルの作成 (プレビュー)
電子情報開示 (Premium) で予測コーディングの機械学習機能を使用する最初の手順は、予測コーディング モデルを作成することです。 モデルを作成した後、レビュー セット内の関連コンテンツと関連性のないコンテンツをトレーニングできます。
予測コーディング ワークフローを確認するには、「電子情報開示 (Premium) での予測コーディングの詳細」を参照してください。
ヒント
E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータ セキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンス ポータルのトライアル ハブで今すぐ開始してください。 サインアップと試用期間の詳細については、こちらをご覧ください。
モデルを作成する前に
- 予測コーディング モデルを作成するには、レビュー セットに少なくとも 2,000 個の項目が必要です。
- モデルを作成する前に、すべてのコレクションをレビュー セットにコミットしてください。 モデルの作成後にレビュー セットに追加されたアイテムは処理されず、モデルによって生成された予測スコアが割り当てられます。
- テキストを含まないレビュー セット内の項目は、モデルによって処理されたり、予測スコアが割り当てられたりすることはありません。 テキストを含む項目は、コントロール セットまたはトレーニング セットに含まれます。
モデルを作成する
Microsoft Purview コンプライアンス ポータルで電子情報開示 (Premium) ケースを開き、[レビュー セット] タブを選択します。
レビュー セットを開き、[ Analytics>Manage 予測コーディング (プレビュー)] を選択します。
[ 予測コーディング モデル (プレビュー)] ページで 、[ 新しいモデル] を選択します。
ポップアップ ページで、モデルの名前と説明 (省略可能) を入力します。
必要に応じて、信頼レベルとエラーのマージンに関連する詳細設定 (ポップアップ ページで [詳細オプション ] を選択) を構成できます。 これらの設定は、コントロール セットに含まれる項目の数に影響します。 コントロール セットは、トレーニング プロセス中に使用され、トレーニング ラウンド中に実行するラベル付けを使用して、モデルが項目に割り当てる予測スコアを評価します。 organizationに、ドキュメント レビューの信頼レベルとエラーの余白に関するガイドラインがある場合は、適切なボックスで指定します。 それ以外の場合は、既定の設定を使用します。
[ 保存] を 選択してモデルを作成します。
システムがモデルを準備するまでに数分かかります。 準備ができたら、トレーニングの最初のラウンドを実行できます。
モデルを作成した後の動作
モデルを作成した後、モデルの作成と準備中にバックグラウンドで次のものが発生します。
- コントロール セットの項目数が計算されます。 このサイズは、レビュー セット内の項目の数と、信頼レベルとエラーの余白の設定に基づいています。 コントロール セットの項目はランダムに選択され、コントロール セット項目として指定されます。 システムには、トレーニングの最初のラウンドで設定されたコントロールから 10 個の項目が含まれています。
- システムは、最初のトレーニングラウンドのトレーニング セットに含まれるレビュー セットから 40 項目をランダムに選択します。 そのため、トレーニングの第 1 ラウンドには、ラベル付け用の 50 項目 (トレーニング セットから 40 項目、コントロール セットから 10 項目) が含まれます。
次の手順
レビュー セットのモデルを作成した後、次の手順は、調査に関連するコンテンツを特定するためにモデルを "教える" トレーニング ラウンドを実行することです。 詳細については、「 予測コーディング モデルのトレーニング」を参照してください。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示