可训练的分类器入门

Microsoft 365 可训练分类器是一种工具,你可以通过提供要查看的示例来训练它来识别各种类型的内容。 训练后,可以使用它来标识 Office 敏感度标签、通信符合性策略和保留标签策略的应用项。

首先创建自定义可训练分类器涉及为其提供人工选取的示例,并积极匹配类别。 然后,在处理这些示例后,通过同时提供正样本和负样本来测试分类器的预测能力。 本文介绍如何创建和训练自定义分类器,以及如何通过重新训练提高自定义可训练分类器和预先训练的分类器在其生存期内的性能。

若要详细了解不同类型的分类器,请 参阅了解可训练分类器

观看此视频,快速了解如何创建可训练分类器。 你仍需要阅读此完整文章才能获取详细信息。


先决条件

许可要求

分类器是Microsoft 365 E5或 E5 合规性功能。 必须有其中一个订阅才能使用它们。

权限

若要访问 UI 中的分类器,请执行以下操作:

  • 全局管理员需要选择让租户创建自定义分类器。
  • 需要合规性管理员角色来训练分类器。

在这些情况下,需要具有这些权限的帐户才能使用分类器:

  • 保留标签策略方案:记录管理和保留管理角色
  • 敏感度标签策略方案:安全管理员、合规性管理员、合规性数据管理员
  • 通信合规性策略方案:预览体验成员风险管理管理员、监督评审管理员

重要

默认情况下,只有创建自定义分类器的用户才能训练和查看该分类器所做的预测。

准备自定义可训练分类器

在深入了解之前,了解创建自定义可训练分类器所涉及的内容会很有帮助。

日程表

此时间线反映了可训练分类器的示例部署。

trainable-classifier-timeline。

提示

第一次需要选择加入可训练分类器。 Microsoft 365 需要 12 天才能完成组织内容的基线评估。 请与全局管理员联系,以启动选择加入过程。

总体工作流

若要详细了解创建自定义可训练分类器的总体工作流,请参阅 用于创建自定义可训练分类器的进程流

种子内容

如果希望可训练分类器能够独立准确地将项目标识为特定内容类别,则首先必须向其提供类别中内容类型的许多示例。 将示例馈送到可训练分类器称为 种子设定。 种子内容由人类选择,并判断为表示内容类别。

提示

你需要至少有50个阳性样本和多达500个样本。 可训练分类器将处理最多 500 个最新创建的示例, (由文件创建的日期/时间戳) 。 提供的示例越多,分类器所做的预测就越准确。

测试内容

可训练分类器处理足够的正样本以生成预测模型后,需要测试其预测,以查看分类器是否可以正确区分与类别匹配的项和不匹配的项。 为此,请选择另一组(希望更大)的人工选取内容集,这些内容包含应归入类别的样本和不会归入的样本。 应使用与首次提供的初始种子数据不同的数据进行测试。 处理后,手动完成结果并验证每个预测是否正确、不正确或不确定。 可训练分类器使用此反馈来改进其预测模型。

提示

为了获得最佳结果,测试示例集中至少有 200 个项目,并均匀分布正负匹配项。

如何创建可训练分类器

  1. 收集 50-500 个种子内容项。 这些必须仅表示强烈表示希望可训练分类器确认为属于分类类别的内容类型的示例。 请参阅 SharePoint Server 中受支持的文件类型的默认爬网文件扩展名和分析文件类型

    重要

    请确保种子集中的项目是类别的 示例。 可训练分类器最初根据你为其设定的种子生成模型。 分类器假定所有种子样本都是强阳性,并且无法知道样本是与类别的弱匹配还是负匹配。

  2. 将种子内容放在专用于 仅保存种子内容的 SharePoint Online 文件夹中。 记下网站、库和文件夹 URL。

    提示

    如果为种子数据创建新的站点和文件夹,请在创建可训练分类器以使用该种子数据之前,至少允许为该位置编制索引一小时。

  3. 使用合规性管理员或安全管理员角色访问权限登录到Microsoft Purview 合规门户,并打开 Microsoft Purview 合规门户Microsoft 365 Defender门户 > 数据分类

  4. 选择 “可训练分类器 ”选项卡。

  5. 选择 “创建可训练分类器”。

  6. 填写要标识此可训练分类器的项目类别的相应值 NameDescription 字段。

  7. 从步骤 2 中选择种子内容网站的 SharePoint Online 网站、库和文件夹 URL。 选择 Add

  8. 查看设置并选择 Create trainable classifier

  9. 在 24 小时内,可训练分类器将处理种子数据并生成预测模型。 分类器状态是在 In progress 处理种子数据时。 分类器处理完种子数据后,状态将更改为 Need test items

  10. 现在,可以通过选择分类器来查看详细信息页。

    可供测试的可训练分类器。

  11. 收集至少 200 个测试内容项 (10,000 个最大) 以获得最佳结果。 这些应该是强正值、强负数和一些在性质上不那么明显的项目的组合。 请参阅 SharePoint Server 中受支持的文件类型的默认爬网文件扩展名和分析文件类型

  12. 将测试内容放在专用于 仅保存测试内容的 SharePoint Online 文件夹中。 记下 SharePoint Online 网站、库和文件夹 URL。

    提示

    如果为测试数据创建新的站点和文件夹,则在创建将使用该种子数据的可训练分类器之前,至少允许为该位置编制索引一小时。

  13. 选择 Add items to test

  14. 从步骤 12 中选择测试内容网站的 SharePoint Online 网站、库和文件夹 URL。 选择 Add

  15. 通过选择 Done完成向导。 可训练分类器最多需要一小时才能处理测试文件。

  16. 当可训练分类器处理完测试文件后,详细信息页上的状态将更改为 Ready to review。 如果需要增加测试示例大小,请选择 Add items to test 并允许可训练分类器处理其他项。

    准备查看屏幕截图。

  17. 选择 Tested items to review 选项卡以查看项目。

  18. Microsoft 365 一次将显示 30 个项目。 查看它们,然后在框中We predict this item is "Relevant". Do you agree?选择或No``Yes选择Not sure, skip to next item。 每 30 个项目后自动更新模型准确性。

    “查看项目”框。

  19. 查看 至少 200 个项目。 准确性分数稳定后, 发布 选项将变为可用,分类器状态将显示 Ready to use

    准确性分数并准备发布。

  20. 发布分类器。

  21. 发布后,分类器将作为具有敏感度标签的 Office 自动标记中的条件提供,并根据条件和通信合规性自动应用保留标签策略