完全なデータ一致に基づく機密情報の種類の詳細

機密情報の種類 (SID) は、機密情報が誤ってまたは不適切に共有されるのを防ぐために、機密データの識別に役立ちます。 また、電子情報開示で関連するデータを検索したり、特定の種類の情報にガバナンス アクションを適用したりするためにも使用されます。 カスタム SIT は、次に基づいて定義します。

  • パターン
  • 従業員社会保障番号ID などのキーワード (keyword)証拠
  • 特定のパターンの証拠に対する文字の近接性
  • 信頼度レベル

しかし、ジェネリック パターンに基づいて一致するものを見つけるのではなく、正確またはほぼ正確なデータ値を使用するカスタム SIT が必要な場合はどうでしょうか。 正確なデータ一致 (EDM) ベースの分類を使用すると、次のように設計されたカスタム機密情報の種類を作成できます。

  • 動的に、簡単に更新する
  • 誤検知が少なくなります
  • 構造化された機密データを操作する
  • 機密情報をより安全に処理し、Microsoft を含む誰とも共有しない
  • さまざまな Microsoft クラウド サービスで使用する

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータ セキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンス ポータルのトライアル ハブで今すぐ開始してください。 サインアップと試用期間の詳細については、こちらをご覧ください。

EDM ベースの分類を使用すると、機密情報のデータベース内の正確な値を参照するカスタム SID を作成できます。 データベースは毎日更新でき、最大 1 億行のデータを含めることができます。 そのため、従業員、患者、クライアントが行き来し、レコードが変化するにつれて、カスタムの機密情報の種類は最新で適用可能なままです。 また、EDM ベースの分類は、Microsoft Purview データ損失防止 ポリシーMicrosoft Cloud App Security ファイル ポリシーなどのポリシーで使用できます。

次の図は、EDM 分類の基本的な動作を示しています。

EDM ベースの分類。

注:

Microsoft Purview 情報保護では、2 バイト文字セットを使用する次の言語がサポートされています。

  • 中国語 (簡体字)
  • 中国語 (繁体字)
  • 韓国語
  • 日本語

このサポートは、機密情報の種類で使用できます。 詳細については、「 2 バイト文字セットの情報保護のサポート: リリース ノート (プレビュー)」を参照してください。

EDM SIT の違い

EDM SID を使用する場合は、それらに固有のいくつかの概念を理解しておくと役立ちます。

Schema

スキーマは XML ファイルです。 Microsoft Purview では、スキーマを使用して、機密情報の種類が検出するように設計された文字列と一致する文字列がデータに含まれているかどうかを判断します。

スキーマ XML ファイルは、次を定義します。

  • 後で DataStore と呼ばれるスキーマの名前。
  • 機密情報ソース テーブルに含まれるフィールド名。 機密情報ソース テーブル内の列名へのスキーマ フィールド名の 1 対 1 のマッピングがあります。
  • マルチトークン一致モードが必要な裏付け証拠フィールド。
  • 検索可能なデータ フィールド。
  • 構成可能な一致が各フィールドでサポートされているかどうか。 構成可能な一致は、検索値の区切り記号や大文字と小文字の区別を無視するなど、検索を変更するパラメーターを持つ一致です。

機密情報ソース テーブル

機密情報ソース テーブルには、EDM SIT が検索する値が含まれています。 テーブルは列と行で構成されます。 列ヘッダーはフィールド名であり、行は項目のインスタンスであり、行内の各セルにはそのフィールドの項目インスタンスの値が含まれます。

機密情報ソース テーブルの簡単な例を次に示します。

Date of Birth
イザヤ ランガー 05-05-1960
Ana ボウマン 11-24-1971
オスカー 02-12-1998

ルール パッケージ

すべての機密情報の種類には、ルール パッケージがあります。 EDM SIT のルール パッケージを使用して、EDM SIT のさまざまなコンポーネントを定義します。 次の表に、各コンポーネントの説明を示します。

コンポーネント 説明
Match 正確な検索で使用するプライマリ要素 (データ フィールド) を指定します。 チェックサム検証、キーワード (keyword)リスト、キーワード (keyword)ディクショナリ、または関数の有無に関係なく正規表現を指定できます。
分類 EDM 参照をトリガーする機密情報の種類の一致を指定します。
サポート要素 検出されると、一致の信頼度を高めるのに役立つ証拠を提供する要素。 たとえば、実際の社会保障番号に近い姓の出現。 サポート要素には、チェックサム検証の有無に関係なく正規表現、キーワード (keyword)リスト、キーワード (keyword)ディクショナリ、または単一または複数トークン文字列の一致を指定できます。
信頼度
(高、中、低)
主要な要素に加えて、どの程度の支持証拠が検出されるかを示します。 アイテムに含まれる証拠が多いほど、一致するアイテムに探している機密情報が含まれているという信頼度が高くなります。 信頼レベルの詳細については、「 機密情報の種類の基本的な部分」を参照してください。
近接性 プライマリ要素とサポート要素の間の文字数。

独自のスキーマとデータを指定する

Microsoft Purview には、定義済みの多数の組み込み SID が 付属しています。 これらの SID には、スキーマ、REGEX パターン、キーワード、信頼度レベルが付属しています。 ただし、EDM SID では、スキーマと、機密性の高い項目を識別するプライマリ フィールドとセカンダリ フィールドを定義する責任があります。 スキーマとプライマリデータとセカンダリデータ値はすべて機密性が高いため、ランダムに生成されたまたは自己提供のソルト値を含むハッシュ関数を使用して暗号化します。 ハッシュされた値のみがサービスにアップロードされるため、機密データが開いたままになることはありません。

プライマリとセカンダリのサポート要素

EDM SIT を作成するときは、ルール パッケージに プライマリ要素 フィールドを定義します。 その後、EDM は、すべてのコンテンツでプライマリ要素を検索します。 EDM が検出できるように、既存の SIT を介してプライマリ要素を検出できる必要があります。

注:

使用可能な SID の完全な一覧については、「機密情報の種類のエンティティ定義」を参照してください。

EDM SIT で検出する機密情報を検出する組み込みの SIT を見つける必要があります。 たとえば、EDM SIT スキーマにプライマリ要素として 米国の社会保障番号 がある場合、EDM スキーマを作成するときに、 それを米国社会保障番号 (SSN) SIT に 関連付けたとします。 検出するには、プライマリ要素が定義されたパターンに従っている必要があります。

スキャンされたアイテムにプライマリ要素が見つかると、EDM は セカンダリ 要素 ( サポート 要素とも呼ばれます) を探します。 プライマリ要素とは異なり、セカンダリ要素にはパターンに従うオプションがあります。 セカンダリ要素に複数のトークンが含まれている場合、それらの要素は、そのコンテンツを検出できる SIT に関連付けるか、マルチトークンマッチング用に構成できる SIT に関連付ける必要があります。 いずれの場合も、一致が検出されるためには、セカンダリ要素がプライマリ要素に一定の近接範囲内にある必要があります。

照合のしくみ

EDM は、ドキュメントと電子メールの文字列を機密情報ソース テーブルの値と比較することで機能します。 この比較を使用して、スキャンされたコンテンツの値がテーブルに存在するかどうかを判断します。 決定は、一方向の暗号化ハッシュを比較することによって行われます。

ヒント

DLP ルールでは、EDM SID と、それらが基になっている定義済みの SID の両方を使用して、機密データの検出を向上させることができます。 信頼度が高い EDM SIT と、信頼度レベルが低い定義済みの SIT を使用します。 たとえば、社会保障番号やその他のサポート データを検索する EDM SIT を使用し、厳しい要件と高い信頼性を備えています。 信頼度の高い一致が構成されている場合、EDM では、少数のインスタンスのみが検出されたときに DLP 一致が生成されます。 より多くの出現回数が検出されたときに DLP 一致をトリガーするには、 米国社会保障番号などの組み込みの SIT を使用します。

EDM でのサポート要素のしくみ

「EDM SIT の違い」で説明されているように、サポート要素は、見つかった場合に一致の信頼性を高める証拠を提供する要素です。

EDM SID のサポートにより、複数のフィールドで構成されるサポート要素を検索して検出できます。 サポートする要素の一致は、キーワード (keyword)リスト、キーワード (keyword)ディクショナリ、単一の英数字文字列、またはマルチトークン文字列で構成できます。

例を見てみましょう。 米国社会保障番号を検出すると仮定します。 一致の信頼度を高めるために、サポート要素には、last nameおよび date of birth (DoB) が含まれますfirst name。 そのため、ソース テーブルは次のようになります。

Ssn FirstName LastName Dob
987-65-4320 イザヤ ランガー 05-05-1960
078-05-1120 Ana ボウマン 11-24-1971
219-09-9999 オスカー 02-12-1998

保護されたファイル内の一致するサポート要素を探す場合、EDM SIT は、プライマリ要素が検出されると、各サポート要素 (個別と組み合わせの両方) をチェックします。

たとえば、最初の社会保障番号が検出されるとします。 正確なデータ一致機能では、次に、ソース テーブル内のすべての列でサポート要素の組み合わせを検索します。

  • イザヤ
  • ランガー
  • 05-05-1960
  • Isaiah Langer
  • イザヤ 05-05-1960
  • Langer 05-05-1960
  • イザヤ・ランガー 05-05-1960

複数トークンの一致

複数トークンマッチングは、検証証拠フィールドにマルチトークン値が含まれているが、そのような値を SIT に一致させるのは簡単ではない場合に使用するように設計されています。 たとえば、 や 123 Main Street, New York, NYなどの1 Microsoft Way, Redmond, WA値をAddress含むフィールドがある場合です。

この機能により、EDM はコンテンツ内の連続する単語のハッシュと、データ ソース内のマルチトークン フィールドのハッシュを比較できます。 それらが同一の場合、EDM は一致を生成します。 これにより、EDM は、EDM スキーマでマルチトークンとしてマークされている限り、複数の単語を含む可能性がある名前、住所、病状、またはその他の裏付け証拠フィールドなどのマルチトークン フィールドを検出できます。

たとえば、一致オプションとして複数トークンの照合を選択すると、次の 2 つの利点が得られます。

  1. ポリシーは、ソース テーブル内の列全体で複数のフィールドに一致するコンテンツを検出します。
  2. ソース テーブルには、構成済みの単語数で構成された文字列値を持つフィールドを含めることができます。 次の表は、サンプル ソース テーブルを示しています。
Ssn 名前 番地
987-65-4320 Isaiah Langer 1432 リンカーン ロード
078-05-1120 Ana Bowman 8250 ファースト ストリート
219-09-9999 Oscar Ward 424 205th Avenue

複数トークンの一致では、[ 名前] フィールドと [ 番地] フィールドは、独立したサポート要素文字列として、また個々のフィールドとして組み合わせて照合されます。 そのため、社会保障番号 987-65-4320 のサポート要素としてマルチトークン文字列として一致する場合、一致するものは次のようになります。

  • Isaiah Langer
  • 1432 リンカーン ロード

組み合わせて一致すると、一致は次のようになります。

  • イザヤ ランガー + 1432 リンカーン ロード

マルチトークン マッチングは、2 バイト文字セットでもサポートされています。一般に、単語を区切るためにスペースを使用しません。

EDM がサポートするサービス

サービス 場所
Microsoft Purview データ損失防止 - SharePoint
- OneDrive
- Teams チャット
- Exchange Online
- デバイス
Microsoft Defender for Cloud Apps - SharePoint
- OneDrive
自動ラベル付け (サービス側) - SharePoint
- OneDrive
- Exchange Online
自動ラベル付け (クライアント側) - Word
- Excel
- PowerPoint
- Exchange デスクトップ クライアント
カスタマー マネージド キー - SharePoint
- OneDrive
- Teams チャット
- Exchange Online
- Word
- Excel
- PowerPoint
- Exchange デスクトップ クライアント
- デバイス
電子情報開示 - SharePoint
- OneDrive
- Teams チャット
- Exchange Online
- Word
- Excel
- PowerPoint
- Exchange デスクトップ クライアント
インサイダー リスクの管理 - SharePoint
- OneDrive
- Teams チャット
- Exchange Online
- Word
- Excel
- PowerPoint
- Exchange デスクトップ クライアント

関連項目