电子数据展示 (高级) 中几乎重复的检测
请考虑要查看的一组文档,其中子集基于同一模板,并且具有大部分相同的样板语言,其中存在一些差异。 如果审阅者可以识别此子集,彻底查看其中一个子集,并查看其余部分的差异,则不会遗漏任何唯一信息,而只需花费一小部分时间来阅读所有文档封面即可覆盖这些信息。 近似重复检测组将文本类似的文档整理到一起,以便帮助你提高审阅流程的效率。
它的工作原理是什么?
运行近似重复检测时,系统会对每一份包含文本的文档展开分析。 然后,系统会将每份文档相互比对,以确定其相似性是否大于设置阈值。 如果是,则这些文档将被组合在一起。 对所有文档进行比对和分组后,每一组会有一份文档被标记为“核心文档”;在审阅文档时,可以先查看“核心文档”,然后查看位于相同近似重复集内的其他文件。重点关注核心文档和正在审阅的文档之间的差异。