电子数据展示 (高级版) 中的近重复检测

考虑一组要审阅的文档,其中子集基于同一模板,并且大部分具有相同的样板语言,只存在一些细微差异。 如果审阅者能够识别此子集,仔细查看其中一个子集,并查看其余部分的差异,则他们不会错过任何唯一的信息,而只需花费一小部分时间来阅读所有文档覆盖。 近似重复检测组将文本类似的文档整理到一起,以便帮助你提高审阅流程的效率。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

它的工作原理是什么?

运行近似重复检测时,系统会对每一份包含文本的文档展开分析。 然后,系统会将每份文档相互比对,以确定其相似性是否大于设置阈值。 如果是,则这些文档将被组合在一起。 对所有文档进行比对和分组后,每一组会有一份文档被标记为“核心文档”;在审阅文档时,可以先查看“核心文档”,然后查看位于相同近似重复集内的其他文件。重点关注核心文档和正在审阅的文档之间的差异。