分類子の精度を向上させる

[アーティクル]
08/11/2023

機密情報の種類 (SIT) やトレーニング可能な分類子などの分類子は、機密情報を識別するためにさまざまな種類のポリシーで使用されます。このようなほとんどのモデルと同様に、アイテムが機密性が高くないものとして識別される場合があります。または、実際にアイテムが機密性の高いアイテムとして識別されない場合があります。これらは、偽陽性と偽陰性と呼ばれます。

この記事では、分類子によって一致した項目が真陽性 (一致) または誤検知 (一致しない) かどうかを確認し、一/致しない一致フィードバックを提供する方法について説明します。そのフィードバックを使用して、精度を高めるために分類子を調整できます。また、Microsoft が提供する分類子の精度を上げるのに役立つ場合は、ドキュメントの編集されたバージョンと一致しないフィードバックを Microsoft に送信することもできます。

[一致] エクスペリエンスと [一致しない] エクスペリエンスと [コンテキストサマリー] エクスペリエンスは、次の項目で利用できます。

コンテンツエクスプローラー - SharePoint サイト、OneDrive サイトの場合
[機密情報の種類の一致項目] ページ - SharePoint サイト、OneDrive サイトの場合
トレーニング可能な分類子の [一致項目] ページ - SharePoint サイト、OneDrive サイトの場合
[Microsoft Purview データ損失防止 (DLP) アラート] ページ - Exchange の SharePoint サイト、OneDrive、電子メールの場合
Microsoft Threat Protection (MTP) アラートページ - Exchange の SharePoint サイト、OneDrive サイト、電子メールの場合

コンテキスト概要エクスペリエンスは、次の環境で使用できます。

Microsoft Purview 情報保護 (MIP) 自動ラベル付けシミュレーションの一致項目 - SharePoint サイト、OneDrive サイトの場合

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータセキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンスポータルのトライアルハブで今すぐ開始してください。サインアップと試用期間の詳細については、こちらをご覧ください。

適用対象

分類器	コンテキストの概要	編集されたプレビューパネル	一致と一致しない
SIT	はい	はい	はい
カスタム SIT	はい	いいえ	はい
指紋 SIT	いいえ	いいえ	はい
完全なデータ一致 SIT	いいえ*	いいえ	いいえ
名前付きエンティティ	いいえ*	いいえ	いいえ
資格情報スキャン	いいえ*	いいえ	いいえ
トレーニング可能な組み込みの分類子	はい**	はい	はい
カスタムトレーニング可能な分類子	いいえ	いいえ	はい

* これらの分類子は、MIP 自動ラベル付けシミュレーションの一致項目 (SharePoint サイトと OneDrive サイトの場合) でサポートされています。

** 組み込みのトレーニング可能な分類子の一覧。コンテキストの概要をサポートします。

重要

一致/一致しないフィードバックとコンテキストサマリーエクスペリエンスのサポート項目: SharePoint サイト & OneDrive サイト - コンテンツエクスプローラー、機密情報の種類とトレーニング可能な分類子の一致項目、DLP アラート、MTP アラート。 Exchange の電子メール - DLP アラートと MTP アラートの場合。コンテキスト概要エクスペリエンスでは、SharePoint サイトと OneDrive サイトの項目がサポートされています。MIP シミュレーションで一致した項目の場合

ライセンスとサブスクリプション

関連するライセンスとサブスクリプションの詳細については、「データ分類分析のライセンス要件: 概要コンテンツ & アクティビティエクスプローラー」を参照してください。

既知の制限

コンテキストの概要では、特定の項目の一致の数が限られているだけで、一致するわけではありません。
コンテキストの概要とフィードバックエクスペリエンスは、テナントに対してフィードバックエクスペリエンスが有効になった後に作成または更新されたアイテムでのみ使用できます。機能が有効になる前に分類された項目には、コンテキストの概要とフィードバックエクスペリエンスが使用できない場合があります。

一致の精度を評価し、フィードバックを提供する方法

一致した項目が真正 (一致) か誤検知 (一致しない) かを示すコンテキストサマリーエクスペリエンスは、表示されるすべての場所で似ています。

重要

ONEDrive サイト、SharePoint サイト、または Exchange メールボックスに、SID またはトレーニング可能な分類子を使用する DLP ポリシーを既に展開している必要があります。また、[ コンテキストの概要] ページに項目が表示される前に、項目が一致している必要もあります。

コンテンツエクスプローラーの使用

この例では、[ コンテキストの概要 ] タブを使用してフィードバックを送信する方法を示します。

Microsoft Purview コンプライアンスポータル>Data 分類>コンテンツエクスプローラーページを開きます。
[ラベル、情報の種類、またはカテゴリのフィルター] で、一致チェックする SIT またはトレーニング可能な分類子の名前を入力します。
SIT を選択します。
場所を選択し、[ ファイル ] 列に 0 以外の値があることを確認します。 (サポートされている場所は SharePoint と OneDrive のみです)。
フォルダーを開き、ドキュメントを選択します。
ドキュメントの [機密情報の種類 ] 列のリンクを選択して、一致した項目と信頼度レベルを確認します。
[閉じる] を選択します
ドキュメントを開き、[ コンテキストの概要 ] タブを選択します。
アイテムを確認し、一致するかどうかを確認します。
一致する場合は、[ 閉じる] を選択します。これで完了です。
一致しない場合は、[一 致しない] を選択します。
間違いを犯し、間違ったオプションを選択した場合は、[閉じる] の横にある [フィードバックの取り消し] を選択します。これにより、項目が一致しない一致/状態に戻ります。
アイテムを確認し、テキストを編集または編集解除します。
[閉じる] を選択します。

[機密情報の種類と一致したアイテム] ページの使用

[ 機密情報の種類 ] ページで、同じフィードバックメカニズムにアクセスできます。

Microsoft Purview コンプライアンスポータルを開き、[データ分類>分類子] [機密情報の>種類] に移動します。
[検索] フィールドに、精度をチェックする SIT の名前を入力します。
SIT を開きます。 [ 概要 ] タブが表示されます。ここでは、一致する項目の数、一致しない項目の数、フィードバックがある項目の数を確認できます。
[ 一致した項目 ] タブを選択します。
フォルダーを開き、ドキュメントを選択します。ここでサポートされている場所は SharePoint、OneDrive のみです。 [ ファイル ] 列に 0 以外の値があることを確認します。
アイテムの [機密情報の種類 ] 列のリンクを選択して、項目が一致した SID と信頼度レベルを確認します。
[閉じる] を選択します。
ドキュメントを開き、[ コンテキストの概要 ] タブを選択します。
アイテムを確認し、一致するかどうかを確認します。
一致する場合は、[ 一致 ] を選択し、[ 閉じる] を選択します。
一致しない場合は、[一致しない] **** を選択します。
間違って間違ったオプションを選択した場合は、[閉じる] の横にある [フィードバックの取り消し] を選択します。これにより、項目が一致しない一致/状態に戻ります。
[閉じる] を選択します。

トレーニング可能な分類子の一致項目ページの使用

Microsoft Purview コンプライアンスポータルを開き、[データ分類>分類子]>トレーニング可能な分類子に移動します。
精度をチェックするトレーニング可能な分類子を選択します。
トレーニング可能な分類子を開きます。 [ 概要 ] タブが表示されます。ここでは、一致する項目の数、一致しない項目の数、フィードバックがある項目の数を確認できます。
[ 一致した項目 ] タブを選択します。
フォルダーを開き、ドキュメントを開きます。ここでサポートされている場所は SharePoint、OneDrive のみです。 [ ファイル ] 列に 0 以外の値があることを確認します。
ドキュメントを開き、[ コンテキストの概要 ] タブを選択します。
アイテムを確認し、一致するかどうかを確認します。
一致する場合は、[ 一致 ] を選択し、[ 閉じる] を選択します。
一致しない場合は、[一致しない] **** を選択します。
間違って間違ったオプションを選択した場合は、[閉じる] の横にある [フィードバックの取り消し] を選択します。これにより、項目が一致しない一致/状態に戻ります。
[閉じる] を選択します。

[データ損失防止アラートの使用] ページ

Microsoft Purview コンプライアンスポータルを開き、[データ損失防止>アラート] ページに移動します。
アラートを選択します。
[ 詳細の表示] を選択します。
[ イベント ] タブを選択します。
[ 詳細 ] タブを最大化します。
アイテムを確認し、一致するかどうかを確認します。
[ アクション] を選択します。
一致する場合は、ウィンドウを閉じます。これで完了です。
一致しない場合は、[ アクション] を選択し、[ 一致しない] を選択します。
アイテムを確認し、テキストを編集または編集解除します。
ウィンドウを閉じます。

フィードバックを使用して分類子を調整する

SIT またはトレーニング可能な分類子がフィードバックに基づいて誤検知を返す回数が多すぎる場合は、これらのオプションの一部を試して調整し、精度を高めます。

トレーニング可能な分類子

「コンテンツエクスプローラーで分類子を再トレーニングする方法」の手順を使用して、トレーニング可能な分類子の精度を高めます。

機密情報の種類

見つかった機密情報の種類のしきい値を増やして、重大度を判断します。個々の分類子に異なるしきい値を使用しても問題ありません。
信頼レベルとその定義方法を理解します。インスタンス数が多い低信頼度を使用するか、インスタンス数が少ない信頼度レベルを使用してみてください。
組み込みの SID を複製して変更して、キーワードの存在、より厳しい値の一致、より強力な書式設定要件など、他の条件を含めます。
カスタム SIT を変更して、既知のプレフィックス、サフィックス、またはパターンを除外します。たとえば、電話番号を検出するカスタム SIT は、電子メールの署名やドキュメントヘッダーに電話番号が含まれている場合に、すべてのメールに対してトリガーされる場合があります。 organizationの電話番号シーケンスをカスタム SIT から除外すると、すべてのメールまたはドキュメントに対してルールがトリガーされるのを防ぐことができます。
関連する記事について説明する項目に一致するものを絞り込む条件として、辞書ベースの SID をさらに含めます。例えば、患者診断を照合するための規則は、診断、診断、状態、症状、および患者のような単語の存在を要求することによって強化され得る。
名前付きエンティティの SID ( すべてのフルネームなど) の場合は、10 や 50 などのより高いインスタンス数のしきい値を設定することをお勧めします。ユーザー名と社会保障番号 (SSN) の両方が一緒に検出された場合、SSN が本当に SSN である可能性が高くなり、検出される SSN が少なすぎるため、ポリシーがトリガーされないリスクが軽減されます。