文档指纹识别

组织中的信息工作人员每天会处理大量的敏感信息。 在Microsoft Purview 合规门户中,文档指纹可让你通过识别整个组织中使用的标准表单来更轻松地保护此信息。 本文介绍文档指纹背后的概念,以及如何使用合规性门户或使用 PowerShell 创建文档指纹。

文档指纹包括以下功能:

  • DLP 可以在 Exchange、SharePoint、OneDrive、Teams 和设备中使用文档指纹作为检测方法。
  • 可以通过Microsoft Purview 合规门户管理文档指纹功能。
  • 支持部分匹配
  • 支持完全匹配
  • 提高了检测准确性
  • 支持使用多种语言进行检测,包括中文、日语和韩语等双字节语言。

重要

如果你是 E5 客户,我们建议更新现有指纹,以利用完整的文档指纹功能集。 如果你是 E3 客户,我们建议升级到 E5 许可证。 如果选择不,则无法在 2023 年 4 月之后修改现有指纹或创建新指纹。

文档指纹识别的基本方案

文档指纹是一项Microsoft Purview 数据丢失防护 (DLP) 功能,可将标准表单转换为敏感信息类型 (SIT) ,可在 DLP 策略的规则中使用。 例如,您可以基于空白父模板来创建文档指纹,然后创建 DLP 策略,用于检测和阻止所有包含敏感内容的传出父模板。 (可选)可以设置 策略提示 ,以通知发件人他们可能正在发送敏感信息,并且发件人应验证收件人是否有资格接收专利。 此过程与组织中使用的任何基于文本的表单一起使用。 可以上传的其他表单示例包括:

  • 政府表单
  • 符合《健康保险可携性与责任法案》 (HIPAA) 的表单
  • 人力资源部的员工信息表单
  • 组织专门创建的自定义表单

理想情况下,贵组织已经创建使用特定表单传输敏感信息的业务实践。 若要启用检测,请上传要转换为文档指纹的空窗体。 接下来,设置相应的策略。 完成这些步骤后,DLP 将检测出站邮件中与该指纹匹配的任何文档。

文档指纹的工作原理

你可能已经猜到文档没有实际指纹,但名称有助于解释该功能。 人的指纹各不相同,同理,文档的单词模式也各不相同。 上传文件时,DLP 会识别文档中的唯一字模式,基于该模式创建文档指纹,并使用该文档指纹来检测包含相同模式的出站文档。 这也是为什么上载表单或模板可以创建最有效的文档指纹的原因。 填写表单的每个人都使用相同的原始字词集,然后将自己的字词添加到文档中。 如果出站文档不受密码保护,并且包含原始表单中的所有文本,DLP 可以确定文档是否与文档指纹匹配。

文档指纹图示。

专利模板包含空白字段“专利标题”、“发明人”和“说明”,以及每个字段的说明,即单词模式。 上传原始专利模板时,它采用受支持的文件类型之一和纯文本格式。 DLP 将此单词模式转换为文档指纹,该指纹是一个小型 Unicode XML 文件,其中包含表示原始文本的唯一哈希值。 指纹在 Active Directory 中保存为数据分类。 (作为安全措施,原始文档本身不存储在服务上;仅存储哈希值。无法从哈希值重新构造原始文档。) 然后,专利指纹将成为可与 DLP 策略关联的 SIT。 将指纹与 DLP 策略关联后,DLP 会检测包含与专利指纹匹配的内容的任何出站电子邮件,并根据组织的策略对其进行处理。

例如,如果设置了阻止普通员工发送包含专利的传出消息的 DLP 策略,DLP 将使用专利指纹来检测专利并阻止这些电子邮件。 或者,你可能希望让法律部门能够向其他组织发送专利,因为它有这样做的业务需求。 若要允许特定部门发送敏感信息,请在 DLP 策略中为这些部门创建例外。 或者,可以允许他们用业务理由替代策略提示。

重要

嵌入文档中的文本不被视为指纹创建。 需要提供不包含嵌入文档的示例模板文件。

支持的文件类型

文档指纹识别支持邮件流规则中支持的相同文件类型 (也称为传输规则) 。 有关支持的文件类型列表,请参阅 邮件流规则内容检查支持的文件类型。 一个关于文件类型的快速说明:邮件流规则和文档指纹都不支持 .dotx 文件类型,这是 Microsoft Word 中的模板文件。 当你在此文档指纹识别文章和其他文档指纹识别文章中看到“template”一词时,它指的是已建立为标准表单的文档,而不是模板文件类型。

文档指纹的限制

在以下情况下,文档指纹不会检测敏感信息:

  • 密码保护的文件
  • 仅包含图像的文件
  • 不包含用于创建文档指纹的原始表单中所有文本的文档
  • 大于 4 MB 的文件

注意

若要对设备使用文档指纹,必须启用 高级分类扫描和保护

指纹存储在单独的规则包中。 此规则包的最大大小限制为 1(共 150 KB)。 根据此限制,可以为每个租户创建大约 50 个指纹。

以下示例演示基于专利模板创建文档指纹时会发生什么情况。 但是,可以使用任何窗体作为创建文档指纹的基础。

与专利模板的文档指纹匹配的专利文档的合规性门户示例

  1. 在Microsoft Purview 合规门户,选择“数据分类”,然后选择“分类器”。
  2. “分类器 ”页上,选择 “敏感信息类型>创建基于指纹的 SIT”。
  3. 输入新 SIT 的名称和说明。
  4. 上传要用作指纹模板的文件。
  5. 可选:调整每个置信度级别的要求,然后选择“ 下一步”。 有关详细信息,请参阅 部分匹配完全匹配
  6. 查看“创建”设置>。
  7. 显示确认页时,选择“ 完成”。

与专利模板的文档指纹匹配的专利文档的 PowerShell 示例

>> $Patent_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\patent.docx'))

>> New-DlpSensitiveInformationType -Name "Patent SIT" -FileData $Patent_Form  -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Contoso Patent Template"

部分匹配

若要配置文档指纹的部分匹配,请在配置置信度时选择 “低”、“ 中”“高 ”,并指定文件中必须以 30% 到 90% 之间的百分比与指纹匹配的文本量。

高置信度返回最少的误报,但可能会导致更多的误报。 低置信度或中等置信度返回更多的误报,但很少到零的误报。

  • 低置信度:匹配项包含的误报最少,但误报最多。 低置信度返回所有低置信度、中等置信度和高置信度匹配项。
  • 中等置信度:匹配项将包含平均数量的误报和误报。 中等置信度返回所有中等和高置信度匹配项。
  • 高置信度:匹配项包含的误报最少,但误报最多。

完全匹配

若要配置文档指纹的完全匹配,请选择“ 精确 ”作为高置信度级别的值。 将高置信度设置为 Exact 时,仅检测到与指纹文本完全相同的文件。 如果文件甚至与指纹有小偏差,则不会检测到它。

已在使用指纹 SCT?

这些指纹的现有指纹和策略/规则应继续工作。 如果不想使用最新的指纹功能,则无需执行任何操作。

如果你有 E5 许可证并且想要使用最新的指纹功能,则可以创建新的指纹或 将策略迁移到 较新版本。

注意

不支持使用已存在指纹的模板创建新指纹。

使用合规性门户使用指纹 SIT 创建新策略

  1. 在Microsoft Purview 合规门户,选择“数据丢失防护>策略>敏感信息类型>+ 创建策略>自定义”以创建新策略。
  2. 选择你的地区或国家/地区 >“”下一步”。
  3. 为策略命名,然后提供说明>
  4. “分配管理单元 ”页上,选择以下两个选项:
    • 将策略应用到所有用户和组 >Next
    • 添加要受策略 >“下一步”约束的特定用户和组。
  5. 选择要应用>策略“下一步”的位置。
  6. “定义策略设置” 页上,选择 “创建自定义高级 DLP 规则>”“下一步”。
  7. “自定义高级 DLP 规则 ”页上,选择“ 创建规则”。
  8. 输入规则的名称和说明。
  9. “条件” 下,选择 “添加条件>内容包含”。
  10. 为新的 DLP 规则集提供 组名称>“添加>敏感信息类型”。
  11. 搜索并选择指纹 SIT >添加的名称。
  12. 选择置信度“ >添加操作”。
  13. 选择触发规则时要执行的操作,然后指定操作详细信息 >“保存>下一步”。
  14. 在以下两个选项之间进行选择:
    • 接下来测试策略>。
    • 立即打开策略“ >下一步”。
  15. 查看设置 >“提交>完成”。

使用 PowerShell 基于文档指纹创建自定义敏感信息类型

目前,只能在 安全性 & 合规性 PowerShell 中创建文档指纹。

DLP 使用敏感信息类型 (SIT) 来检测敏感内容。 若要基于文档指纹创建自定义 SIT,请使用 New-DlpSensitiveInformationType cmdlet。 以下示例基于文件 C:\My Documents\Contoso Customer Form.docx 创建名为“Contoso Customer Confidential”的新文档指纹。

$Employee_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\Contoso Customer Form.docx'))

New-DlpSensitiveInformationType -Name "Contoso Customer Confidential" -FileData $Employee_Form -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Message contains Contoso customer information."

最后,将“Contoso 客户机密”敏感信息类型添加到Microsoft Purview 合规门户中的 DLP 策略。 本示例将规则添加到名为“ConfidentialPolicy”的现有 DLP 策略。

New-DlpComplianceRule -Name "ContosoConfidentialRule" -Policy "ConfidentialPolicy" -ContentContainsSensitiveInformation @{Name="Contoso Customer Confidential"} -BlockAccess $True

还可以在 Exchange 的邮件流规则中使用指纹 SIT,如以下示例所示。 若要运行此命令,首先需要连接到 Exchange PowerShell。 另请注意,SIT 从Microsoft Purview 合规门户同步到 Exchange 管理中心需要一段时间。

New-TransportRule -Name "Notify :External Recipient Contoso confidential" -NotifySender NotifyOnly -Mode Enforce -SentToScope NotInOrganization -MessageContainsDataClassification @{Name=" Contoso Customer Confidential"}

DLP 现在检测与 Contoso 客户 Form.docx 文档指纹匹配的文档。

有关语法和参数信息,请参阅:

编辑、测试或删除文档指纹

若要通过用户界面执行此操作,请打开要编辑、测试或删除的指纹 SIT,然后选择相应的图标。

若要通过 PowerShell 执行此操作,请 () 运行以下命令。

编辑文档指纹

>> Set-DlpSensitiveInformationType -Name "Fingerprint SIT" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"

测试文档指纹

>> $r = Test-DataClassification -TextToClassify "Credit card information Visa: 4485 3647 3952 7352. Patient Identifier or SSN: 452-12-1232"
>> $r.ClassificationResults

删除文档指纹

>> Remove-DlpSensitiveInformationType "Fingerprint SIT"

使用合规性门户使用指纹 SIT 迁移新策略

  1. 在Microsoft Purview 合规门户,选择“数据丢失防护>策略>”“敏感信息类型”。
  2. 打开包含要迁移的指纹的 SIT。
  3. 选择 “编辑”。
  4. 再次上传同一指纹文件。
  5. 查看指纹设置 >“完成”。

使用 PowerShell 迁移指纹

输入以下命令:

Set-DlpSensitiveInformationType -Name "Old Fingerprint" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"