在电子数据展示 (高级) 中配置搜索和分析设置

可以为每个Microsoft Purview 电子数据展示 (高级) 案例配置设置,以控制以下功能。

  • 近似重复和电子邮件线程

  • 主题

  • 自动生成的审阅集查询

  • 忽略文本

  • 光学字符识别

如要为案例配置搜索和分析设置:

  1. 在“电子数据展示(高级版)”页上,选择该案例。

  2. 在“设置”选项卡上,点击“搜索和分析”下的“选择”。

    将显示“事例设置”页。 这些设置应用于案例中的所有审阅集。

    为电子数据展示 (高级) 案例配置分析和搜索设置。

近似重复和电子邮件线程

在本部分中,可以为重复检测、近乎重复的检测和电子邮件线程设置参数。 有关详细信息,请参阅“近重复检测”和“电子邮件线程”。

  • 几乎重复/电子邮件线程: 打开时,对审阅集中的数据运行分析时,重复检测、近乎重复的检测和电子邮件线程将作为工作流的一部分包括在内。

  • 文档和电子邮件相似性阈值: 如果两个文档的相似性级别高于阈值,则这两个文档将放在相同的近重复集内。

  • 最小/最大字数: 这些设置指定,几乎重复和电子邮件线程分析仅对至少具有最小字数和最多单词数的文档执行。

主题

在本部分中,可以设置主题的参数。 有关详细信息,请参阅 主题

  • 主题: 启用后,当您对审阅集中的数据运行分析时,主题群集将作为工作流的一部分执行。

  • 主题的最大数目: 指定对审阅集中的数据运行分析时可以生成的最大主题数。

  • 在主题中包括数字: 打开时,生成主题时会包含标识主题) 的数字 (。

  • 动态调整主题的最大数目: 在某些情况下,审阅集中可能没有足够的文档来生成所需的主题数。 启用此设置后,电子数据展示(高级版)会动态调整最大主题数,而不是尝试强制实施最大主题数。

创建审阅集查询

如果在分析复选框 后选择“自动创建 For Review 保存的搜索”,则电子数据展示 (高级) 自动生成名为 “For Review”的审阅集查询。

For Review 自动生成的查询。

此查询基本上筛选出审阅集中的重复项。 这样便可以查看审阅集中的唯一项。 本查询仅会对案例的审阅集运行分析时创建。 有关审阅集查询的详细信息,请参阅 审阅集中的数据查询

忽略文本

在某些情况下,某些文本会降低分析质量,例如,无论电子邮件的内容如何,都会向电子邮件添加冗长的免责声明。 如果你知道哪些是应忽略的文本,可以通过指定文本字符串以及文本排除分析功能(近似重复、电子邮件线程、主题和相关性)将其从分析中排除。 还支持将正则表达式 (RegEx) 作为忽略的文本。

光学字符识别 (OCR)

启用此设置时,将在映像文件上运行 OCR 处理。 OCR 处理在以下情况下运行:

  • 将保管人和 非保管数据源 添加到事例时。 将 OCR 应用于图像文件时,这些文件中的文本将在集合期间进行搜索。 在 高级索引 过程中执行 OCR 处理。 OCR 仅在高级索引编制过程中处理的项上运行。 例如,如果在高级索引编制过程中处理了部分索引或有其他索引错误的大型 PDF 文件,则该文件也将应用 OCR。 换句话说,OCR 处理仅发生在高级索引过程中重新编制索引的文件上。 这意味着,在某些情况下,保管人会添加到案例中,但某些电子邮件附件不会针对 OCR 进行处理,因为在高级索引编制过程中未处理这些文件。

  • 当来自其他数据源的内容 (不与保管人关联并在非保管数据源中添加到案例中时,) 将添加到审阅集。

将数据添加到审阅集后,可以查看、搜索、标记和分析图像文本。 可以在审阅集中所选图像文件的文本查看器中查看提取的文本。 有关更多信息,请参阅: