跟踪电子数据展示 (高级版) 中的相关性分析

在 Microsoft Purview 电子数据展示 (Premium) 中,“相关性跟踪”选项卡显示“标记”选项卡中执行的“相关性”训练的计算有效性,并指示在“相关性”中迭代训练过程中要执行的下一步。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

跟踪相关性训练状态

  1. 在相关性跟踪中查看案例问题的以下详细信息,如下面的示例中所示的“ 问题名称 ”对话框。

    • 评估:此进度指标显示针对此点执行的相关性训练在误差幅度方面达到了评估目标的程度。 还会显示相关性训练结果的丰富性。

    • 训练:此颜色编码进度指示器和工具提示指示相关性训练结果稳定性,以及显示为每个问题标记的相关性训练样本数的数字刻度。 专家监视迭代相关性训练过程的进度。

    • 批处理计算:此进度指示器提供有关批处理计算完成情况的信息。

    • 下一步:显示要执行的下一步的建议。

    在此示例中,显示了已成功完成的问题评估,由已完成的颜色进度指示器和复选标记指示。 标记正在进行中,但这种情况仍被视为不稳定 (稳定性状态也显示在工具提示) 中。 下一步建议是“培训”。

    相关性跟踪训练步骤 1。

    展开的视图显示其他信息和选项。 显示的当前误差边距是当前评估状态中召回的误差边距,因为现有 (已标记) 评估文件。

    注意

    通过清除每个问题的评估检查框,然后清除“所有问题”,可以绕过评估阶段。 但是,因此,此问题不会有统计信息。 >只有在执行评估之前,才能清除“评估检查”框。 如果一个案例中存在多个问题,则仅当清除每个问题的检查框时,才会绕过评估

    当第一个示例文件集未完成评估时,评估可能是标记更多文件的下一步。

    相关性>跟踪中,训练进度指示器和工具提示指示达到稳定性所需的额外样本的估计数量。 此估算为所需的其他培训提供了指南。

    相关性跟踪训练。

  2. 完成标记后,如果需要继续训练,请选择“ 训练”。 从加载的文件集生成另一个示例文件集,以便进行其他训练。 然后返回到“标记”选项卡,以标记和训练更多文件。

达到稳定的训练级别

评估文件达到稳定的训练级别后,电子数据展示 (Premium) 即可进行 Batch 计算。

注意

通常,在三个稳定的训练样本之后,下一步是“批处理计算”。 可能存在例外情况,例如,当更改了早期示例中的文件标记或添加了种子文件时。

执行批处理计算

训练成功完成后,批处理计算作为下一步执行, (进度栏显示稳定训练状态时,工具提示中的复选标记和稳定状态。) Batch 计算将相关性训练期间获取的知识应用于整个文件总体,以评估文件的相关性并分配相关性分数。

如果有多个问题,则按问题进行 Batch 计算。 在 Batch 计算期间,在处理所有文件时监视进度。

此处,建议的下一步是“无”,这表示此时不需要额外的迭代相关性训练。 下一阶段是“ 相关性 > 决定 ”选项卡。

如果要在 Batch 计算后导入新文件,管理员可以将导入的文件添加到新加载中。

注意

如果在批处理计算期间选择 “取消 ”,该过程将保存已执行的内容。 如果再次运行 Batch 计算,该过程将从上次执行的点继续。

评估标记一致性

如果文件标记存在不一致,可能会影响分析。 当结果不是最佳或一致性不确定时,可以使用电子数据展示 (Premium) 标记一致性过程。 返回可能标记不一致的文件的列表,可以根据需要查看和重新标记这些文件。

注意

在评估后的七轮或多轮训练后,可以在 相关性>跟踪>问题>详细结果>培训进度中查看标记一致性。 此评审一次针对一个问题完成。

  1. “相关性跟踪”中>,展开议题的行。

  2. “下一步”右侧,选择“ 修改”。

  3. 在七个训练样本之后,选择“ 标记不一致” 作为 “下一步 ”选项,然后选择“ 确定”。

  4. 选择“标记不一致”。标记 ”选项卡随即打开,其中显示了需要重新标记的不一致列表。

  5. 选择“ 计算 ”以提交更改。 标记不一致之后的下一步是“训练”。

查看和使用相关性结果

在“ 相关性 > 跟踪 ”选项卡中,展开议题的行,然后在 “详细结果”旁边选择“ 视图”。 将显示“详细结果”窗格,如下所示。

相关性训练详细结果。

标记摘要

在下面的示例中, 标记摘要 显示评估、训练和跟进文件标记过程的每个总计。

相关性跟踪标记摘要。

关键字

关键字 (keyword) 是文件中唯一的字符串、单词、短语或单词序列,由电子数据展示 (Premium) 标识为文件是否相关的重要指标。 “包括”列列表关键字 (keyword) 标记为“相关”的文件中的权重,“排除”列列出了标记为“不相关的”文件中的关键字和权重。

电子数据展示 (Premium) 分配负或正关键字 (keyword) 权重值。 权重越高,在批处理计算过程中,为显示关键字 (keyword) 的文件分配相关性分数的可能性就越高。

电子数据展示 (高级版) 关键字列表可用于补充专家构建的列表,或作为文件评审过程中任何时间点的间接健全检查。

训练进度

训练进度 ”窗格包括训练进度图和质量指示器显示,如以下示例所示。

相关性 跟踪训练进度。

训练质量指示器:按如下所示显示标记一致性的分级:

  • 良好:文件标记一致。 ) 显示 (绿灯
  • :某些文件的标记可能不一致。 ) 显示 (黄灯
  • 警告:许多文件的标记可能不一致。 ) 显示 (红灯

训练进度图:显示与 F 度量值相比,许多相关性训练周期后相关性训练稳定性的程度。 当我们在图形中从左向右移动时,置信区间会变窄,并通过电子数据展示 (高级) 相关性来确定相关性训练结果优化时的稳定性,

注意

相关性使用 F2,这是一种 F 度量指标,其中 Recall 接收的权重是 Precision 的两倍。 对于丰富度 (超过 25% ) 的情况,相关性使用 F1 (1:1 比率) 。 可以在 相关性设置>高级设置中配置 F 度量比率。

批处理计算结果

Batch 计算结果 ”窗格包括为相关性评分的文件数,如下所示:

  • Success
  • :不包含文本,例如,仅包含空格/制表符
  • 失败:由于大小过大或无法读取
  • 忽略:由于大小过大
  • 模糊:包含无意义的文本或与问题相关的任何功能

注意

空、失败、忽略或模糊的相关性分数为 -1。

训练统计信息

训练统计信息 ”窗格显示基于电子数据展示 (高级) 相关性训练的结果的统计信息和图形。

相关性 跟踪训练统计信息。

此视图显示以下内容:

  • 回顾-召回率:根据假设线性评审中的相关性分数对结果进行比较。 根据审阅集大小集,估计召回率。
  • 参数:与整个案例的文件填充相关的审阅集的累积计算统计信息。
  • 审阅:基于此截断的要审阅的文件的百分比。
  • 召回率:审阅集中相关文件的百分比。
  • 按相关性分数分布:左侧显示深灰色的文件低于截止分数。 工具提示显示相关性分数以及审阅文件中相对于文件总数的相关百分比。