了解可训练的分类器

项目
02/14/2024

对内容进行分类和标记，以便正确保护和处理内容是信息保护规则的起点。 Microsoft Purview 有三种对内容进行分类的方法。

提示

如果你不是 E5 客户，请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。立即从Microsoft Purview 合规门户试用中心开始。了解有关注册和试用条款的详细信息。

手动

手动分类需要人工判断和操作。用户和管理员在遇到内容时对内容进行分类。可以使用预先存在的标签和敏感信息类型，也可以使用自定义创建的标签和敏感信息类型。然后，可以保护内容并管理其处置。

自动模式匹配

这些分类机制包括通过以下方式查找内容：

查询语言) (关键字 (keyword) 关键字或元数据值。
使用以前识别的敏感信息模式（如社会保障、信用卡或银行帐号） (敏感信息类型实体定义) 。
识别项目，因为它是模板的变体 (文档手指打印) 。
使用存在的精确字符串完全匹配数据。

然后，可以自动应用敏感度和保留标签，使内容可用于了解Microsoft Purview 数据丢失防护和自动应用保留标签的策略。

分类

此分类方法非常适合手动或自动模式匹配方法不容易识别的内容。这种分类方法更多的是使用分类器根据项是什么来标识项，而不是根据项 (模式匹配) 中的元素来标识项。分类器通过查看要识别的内容的成百上千个示例来了解如何识别某种类型的内容。

注意

预览版 - 可以通过在筛选器面板中展开“可训练分类器”，在内容资源管理器中查看 可训练的分类器 。可训练的分类器将自动显示 SharePoint、Teams 和 OneDrive 中发现的事件数，而无需任何标记。如果不想使用此功能，则必须使用 Microsoft 支持部门提交请求。这将禁止显示未在内容资源管理器中的任何标记策略中使用的敏感数据。也可以禁用对数据的扫描。如果扫描已关闭，则敏感度标记和 DLP 策略将不起作用

可以使用分类器的位置

分类器可用作以下条件：

重要

分类器仅适用于未加密的项。

分类器类型

预先训练的分类器 - Microsoft 已创建并预先训练了多个分类器，无需训练即可开始使用它们。这些分类器将显示状态 Ready to use为。
自定义可训练分类器 - 如果内容识别和分类需求超出了预先训练的分类器所涵盖的范围，则可以创建和训练自己的分类器。

有关所有预先训练的分类器的完整列表，请参阅可训练分类器定义。

自定义分类器

当预先训练的分类器不能满足你的需求时，你可以创建和训练自己的分类器。创建自己的工作涉及更多工作，但会更好地根据组织需求进行定制。

开始创建自定义可训练分类器，方法是向该分类器提供肯定属于该类别的示例。处理这些示例后，可以通过混合提供匹配和非匹配示例来对其进行测试。然后，分类器会预测任何给定项是否属于要构建的类别。然后确认其结果，并整理出真正、真负、假正和假负，以帮助提高其预测的准确性。

发布分类器时，它会对 SharePoint Online、Exchange 和 OneDrive 等位置中的项目进行排序，并将内容分类。发布分类器后，可以继续使用类似于初始训练过程的反馈过程对其进行训练。

例如，可以为：

法律文件 - 如律师客户特权、结业集、工作声明
战略业务文档 - 如新闻稿、并购、交易、业务或营销计划、知识产权、专利、设计文档
定价信息 - 如发票、报价单、工作订单、投标文档
财务信息 - 例如组织投资、季度或年度业绩

创建自定义分类器的过程流

创建和发布用于合规性解决方案（例如保留策略和通信监督）的分类器遵循此流程。有关创建自定义可训练分类器的更多详细信息，请参阅创建自定义分类器。

进程流自定义分类器。

重新训练分类器

你可以帮助提高所有自定义可训练分类器的准确度，并向他们提供有关其所执行的分类准确性的反馈。这称为重新训练，并遵循此工作流。

注意

无法重新训练预先训练的分类器。

分类器重新训练工作流。

在可训练分类器中提供匹配/非匹配准确度反馈

可以在 内容资源管理器 和可训练分类器中查看可训练分类器具有的匹配项数。还可以提供有关项目是否实际是匹配项的反馈，并使用 “匹配、 不是匹配” 反馈机制，并使用该反馈来优化分类器。有关详细信息，请参阅提高分类器准确性。