了解可训练的分类器

对内容进行分类和标记,以便正确保护和处理内容是信息保护规则的起点。 Microsoft Purview 可通过三种方式对内容进行分类: 手动、使用 自动模式匹配和使用 分类器

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

手动

手动对内容进行分类需要人工判断和操作。 用户和管理员在遇到内容时对内容进行分类。 可以使用预先存在的标签和敏感信息类型,也可以使用自己创建的标签和敏感信息类型。 然后,可以保护内容并管理其处置。

自动模式匹配

这些分类机制包括使用以下内容查找内容:

然后,可以自动应用敏感度和保留标签,使内容可用于了解保留标签的Microsoft Purview 数据丢失防护自动应用策略

分类器。

此分类方法非常适合使用手动或自动模式匹配方法无法轻松识别的内容。 这种分类方法旨在使用分类器根据项是什么来标识项,而不是通过项中的元素 (模式匹配) 。 分类器通过查看要检测的内容的数百个示例来了解如何识别内容类型。

注意

预览版: 可以通过展开筛选器面板中的“可训练分类器”,在内容资源管理器中查看 可训练的分类器 。 可训练的分类器将自动显示 SharePoint、Teams 和 OneDrive 中发现的事件数,而无需任何标记。 如果不想使用此功能,则必须使用 Microsoft 支持部门 提交请求。 这将禁止显示未用于内容资源管理器内任何标签策略的敏感数据。 也可以禁用对数据的扫描。 如果扫描处于关闭状态,则敏感度标记和具有这些分类器的 DLP 策略将不起作用。

可以使用分类器的位置

分类器可用作以下操作的条件:

重要

分类器仅适用于未加密的项。

分类器类型

  • 预先训练的分类器 - Microsoft 已创建并预先训练了多个分类器,无需训练即可开始使用它们。 这些分类器显示状态 Ready to use为 。
  • 自定义可训练分类器 - 如果需要识别和分类内容超出了预先训练的分类器所涵盖的范围,则可以创建和训练自己的分类器。

有关所有预先 训练的分类器 的完整列表,请参阅可训练分类器定义。

自定义分类器

重要

语言限制: 对自定义分类器的支持仅限于英语。

当预先训练的分类器不能满足你的需求时,你可以创建和训练自己的分类器。 创建自己的工作涉及更多工作,但它们更适合组织的需求。

若要创建自定义可训练分类器,请首先向它提供一组绝对属于类别的示例,以及另一组绝对不在类别中的示例。 Microsoft Purview 会处理这些示例,然后分类器会预测任何给定项是否属于要生成的类别。 然后确认结果,对真正、真负、假正和假负进行排序,以帮助提高预测的准确性。

发布分类器时,它会对 SharePoint、Exchange 和 OneDrive 等位置中的项目进行排序,并对内容进行分类。

例如,可以为以下内容创建可训练分类器:

  • 法律文件 - 如律师客户特权、结业集、工作声明
  • 战略业务文档 - 如新闻稿、并购、交易、业务或营销计划、知识产权、专利、设计文档
  • 定价信息 - 如发票、报价单、工作订单、投标文档
  • 财务信息 - 例如组织投资、季度或年度业绩

创建自定义分类器的过程流

以下流程图演示了创建和发布分类器以用于合规性解决方案(例如保留策略和通信监督)的过程。 有关创建自定义可训练分类器的更多详细信息,请参阅 可训练分类器入门

创建自定义可训练分类器的工作流示意图。

提示

如果为种子数据创建新的 SharePoint 网站和文件夹,请在创建将使用该种子数据的可训练分类器之前,至少允许该位置编制索引一小时。

重新训练分类器

不再支持重新训练已发布的自定义分类器。 如果需要提高已发布的可训练分类器的准确性,请删除分类器,然后 从更大的样本集开始

若要提高未发布的分类器的准确性,请查看测试结果,使用其他数据更新数据集,然后重启训练。

另请参阅