修改精确数据匹配架构以使用可配置的匹配

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

适用对象

  • 使用 PowerShell 创建 (SIT) 敏感信息类型 (EDM) 精确数据匹配。

基于精确数据匹配 (EDM) 的分类允许你创建自定义敏感信息类型,它们将引用敏感信息数据库中的精确值。 当需要允许精确字符串的变体时,可以使用 可配置的匹配 来告知 Microsoft Purview 忽略大小写和一些分隔符。

重要

请使用此过程来修改现有 EDM 架构和数据文件。

  1. 从用于连接到 Microsoft 365 的计算机卸载 EdmUploadAgent.exe ,以便进行 EDM 架构和数据文件上传

  2. 使用以下链接下载订阅的相应 EdmUploadAgent.exe 文件:

    • 商业 + GCC - 大多数商业客户应使用此选项
    • GCC-High - 此选项专用于高安全性政府云订户
    • DoD - 此选项专用于美国国防部云客户
  3. 授权 EDM 上传代理,打开命令提示符窗口(以管理员身份),然后运行以下命令:

    EdmUploadAgent.exe /Authorize
    
  4. 如果没有现有架构的当前副本,则需要下载现有架构的副本。 为此,请运行以下命令:

    EdmUploadAgent.exe /SaveSchema /DataStoreName <dataStoreName> [/OutputDir [Output dir location]]
    
  5. 自定义架构,以便每个列使用 caseInsensitive 和/或 ignoredDelimiters。 的 caseInsensitive 默认值为“false”,对于 ignoredDelimiters,默认值为空字符串。

    注意

    用于检测常规正则表达式模式的基础自定义敏感信息类型或内置敏感信息类型必须支持检测使用 ignoredDelimiters 列出的输入变体。 例如,内置的美国社会安全号码 (SSN) 敏感信息类型可以检测构成 SSN 的分组号码之间包含短划线、空格或缺少空格的数据变化。 因此,SSN 数据的 EDM ignoredDelimiters 中唯一相关的分隔符是:短划线和空格。

    下面是一个示例架构,它通过创建识别敏感数据中大小写变体所需的额外列来模拟不区分大小写的匹配。

    <EdmSchema xmlns="http://schemas.microsoft.com/office/2018/edm">
      <DataStore name="PatientRecords" description="Schema for patient records policy" version="1">
               <Field name="PolicyNumber" searchable="true" />
               <Field name="PolicyNumberLowerCase" searchable="true" />
               <Field name="PolicyNumberUpperCase" searchable="true" />
               <Field name="PolicyNumberCapitalLetters" searchable="true" />
      </DataStore>
    </EdmSchema>
    

    在上面的示例中,如果同时caseInsensitive添加了 和 ignoredDelimiters ,则不需要原始PolicyNumber列的变体。

    若要更新此架构,以便 EDM 使用可配置的匹配,请使用 caseInsensitiveignoredDelimiters 标志。 其外观如下:

    <EdmSchema xmlns="http://schemas.microsoft.com/office/2018/edm">
      <DataStore name="PatientRecords" description="Schema for patient records policy" version="1">
             <Field name="PolicyNumber" searchable="true" caseInsensitive="true" ignoredDelimiters="-,/,*,#,^" />
      </DataStore>
    </EdmSchema>
    

    有关标志支持的 ignoredDelimiters 字符的信息,请参阅 使用 caseInsensitive 和 ignoredDelimiters 字段

  6. 连接到安全与合规 PowerShell

    注意

    如果你的组织已在租户级别为 Microsoft 365 设置了客户密钥,精确数据匹配将自动利用其加密功能。 这仅适用于商业云中 E5 许可的租户。 有关详细信息,请参阅 客户密钥概述

  7. 通过运行以下命令更新架构:

    Set-DlpEdmSchema -FileData ([System.IO.File]::ReadAllBytes('.\\edm.xml')) -Confirm:$true
    
  8. 如有必要,请更新数据文件以匹配新架构版本。

    提示

    (可选)可以在上传 CSV 文件之前对 CSV 文件运行验证,方法是运行:

    EdmUploadAgent.exe /ValidateData /DataFile [data file] /Schema [schema file]

    例如:EdmUploadAgent.exe /ValidateData /DataFile C:\data\testdelimiters.csv /Schema C:\EDM\patientrecords.xml

    有关 EdmUploadAgent.exe 支持的所有参数的详细信息,请运行

    EdmUploadAgent.exe /?

  9. 以管理员) 打开命令提示符窗口 (,并运行以下命令以哈希和上传敏感数据:

    EdmUploadAgent.exe /UploadData /DataStoreName [DS Name] /DataFile [data file] /HashLocation [hash file location] /Salt [custom salt] /Schema [Schema file]