估计电子数据展示搜索结果与实际电子数据展示搜索结果之间的差异

本文适用于可以使用以下Microsoft Purview 电子数据展示工具之一运行的搜索:

  • 内容搜索
  • 电子数据展示(标准版)

运行电子数据展示搜索时,所使用的工具将返回与搜索条件匹配的 (项数及其总大小) 的估计值。 例如,在Microsoft Purview 合规门户中运行搜索时,估计的搜索结果将显示在所选搜索的浮出控件页上。

搜索浮出控件页上显示的结果的估计值。

这与将结果导出到本地计算机以及随搜索结果一起下载的“导出摘要”报表时,电子数据展示导出工具中显示的项目总大小和项数的估计值相同。

电子数据展示导出工具中的估计结果

电子数据展示导出工具中的估计结果。

导出摘要报表中的估计结果

估计的搜索结果包含在“导出摘要”报表中。

但是,如导出摘要报表的上一张屏幕截图所示,下载的实际搜索结果的大小和数量与估计搜索结果的大小和数量不同。

估计搜索结果和下载搜索结果之间的差异。

以下是导致这些差异的一些原因:

  • 估计结果的方式。 搜索结果的估计值只是估计 (,而不是满足搜索查询条件的项目的实际计数) 。 若要编译 Exchange 项的估算值,请使用电子数据展示工具从 Exchange 数据库中请求满足搜索条件的邮件 ID 列表。 但是,导出搜索结果时,将重新运行搜索,并从 Exchange 数据库中检索实际邮件。 因此,由于如何确定估计的项数和实际项数,可能会导致这些差异。

  • 在估算和导出搜索结果的时间之间发生的更改。 导出搜索结果时,将重启搜索,以收集搜索索引中符合搜索条件的最新项目。 在收集估计的搜索结果和导出搜索结果之间的时间内,可能创建、发送或接收了满足搜索条件的其他项目。 估计搜索结果时位于搜索索引中的项目也可能不再存在,因为在导出搜索结果之前,它们已从内容位置清除。 缓解此问题的一种方法是为电子数据展示搜索指定日期范围。 另一种方法是保留内容位置,以便保留项目且无法清除。

    下面是估计搜索结果和导出搜索结果之间的差异的其他问题:

    • 使用日期查询时,项数增加。 这通常是由以下两个原因造成的:
      • 在 SharePoint 中保留版本控制。 如果文档从保留的网站中删除并启用文档版本控制,将保留所删除文档的所有版本。
      • 日历项。 接受和拒绝消息和定期会议将自动继续在后台使用旧日期创建新项目。
    • 使用保留时,在某些情况下,同一项保留在用户的主邮箱及其存档邮箱中。 当用户手动将项移动到其存档时,可能会发生这种情况。
    • 虽然很少,即使在应用保留的情况下,维护内置日历项 (用户不可编辑,但包含在许多搜索结果中,) 可能会不时删除。 定期删除日历项将导致导出的项目更少。
  • 未编制索引的项。 未编制搜索索引的项可能会导致估计搜索结果与实际搜索结果之间的差异。 导出搜索结果时,可以包含未编制索引的项目。 如果在导出搜索结果时包含未编制索引的项目,则导出的项目可能更多。 这将导致估计的搜索结果和导出的搜索结果之间的差异。

    使用内容搜索工具时,可以选择在导出搜索结果时包括未编制索引的项目。 搜索返回的未编制索引的项目数与其他估计搜索结果一起列在浮出控件页面上。 任何未编制索引的项目也将包含在估计搜索结果的总大小中。 导出搜索结果时,可以选择包含或不包含未编制索引的项目。 配置这些选项的方式可能会导致估计搜索结果与下载的实际搜索结果之间的差异。

  • 导出包含所有内容位置的内容搜索结果。 如果要从中导出结果的搜索是对组织中所有内容位置的搜索,则仅导出内容位置中包含与搜索条件匹配的项目的未编制索引的项目。 In other words, if no search results are found in a mailbox or site, then any unindexed items in that mailbox or site won't be exported. 但是,来自所有内容位置的未编制索引项 (即使不包含与搜索查询) 匹配的项目也会包含在估计的搜索结果中。

    或者,如果要从包含的特定内容位置导出的搜索结果,则将导出搜索条件 (未排除的未编制索引的项目) 搜索中指定的所有内容位置。 在这种情况下,未编制索引的项的估计数目和导出的未编制索引项的数目应相同。

    不从组织中的每个位置导出未编制索引的项目的原因是,这可能会增加导出错误的可能性,并增加导出和下载搜索结果所需的时间。

  • SharePoint 和 OneDrive 中的未编制索引项未包含在搜索估算中。 来自 SharePoint 网站和OneDrive for Business帐户的未编制索引的项目不包括在估计的搜索结果中。 这是因为 SharePoint 索引不包含未编制索引的项目的数据。 搜索估计中仅包括邮箱中的未编制索引的项目。 但是,如果在导出搜索结果时包括未编制索引的项目,则会包含 SharePoint 和 OneDrive 中的未编制索引的项目,这将增加实际导出的项目数。 这将导致估计结果 (不包括 SharePoint 和 OneDrive 网站) 中未编制索引的项目与下载的实际项目之间的差异。 在这种情况下,有关仅从包含与搜索条件匹配的项目的内容位置导出未编制索引的项目的规则仍然适用。

  • SharePoint 和 OneDrive 中的文档版本。 搜索 SharePoint 网站和 OneDrive 帐户时,一个文档的多个版本不会包含在估计的搜索结果计数中。 但是,在导出搜索结果时,可以选择包含所有文档版本。 如果在导出搜索结果时包括文档版本,则导出项的实际 (数和总大小) 将增加。

  • SharePoint 文件夹。 如果 SharePoint 中的文件夹与搜索查询匹配(例如,按日期搜索),则搜索估计值将包括具有上次修改日期范围 (这些文件夹的计数,但不包括) 这些文件夹中的项目。 导出搜索结果时,将导出文件夹中的项目,但不会导出实际文件夹。 结果是导出的项目数将大于估计的搜索结果数。 如果文件夹为空,则导出的实际搜索结果数将减少一个项目,因为不会导出实际文件夹。

    注意

    运行基于查询的搜索时,可以通过向查询添加以下条件来排除 SharePoint 文件夹: NOT(ContentType:folder)

  • SharePoint 列表。 如果 SharePoint 列表的名称与搜索查询匹配,则搜索估算将包括列表中所有项目的计数。 导出搜索结果时,列表 (以及) 的列表项将导出为单个 CSV 文件。 这将减少实际导出的项目数。 如果列表包含附件,附件将作为单独的文档导出,这也会增加导出的项目数。

    注意

    运行基于查询的搜索时,可以通过向查询添加以下条件来排除 SharePoint 列表: NOT(ContentType:list)

  • 原始文件格式与导出的文件格式。 对于 Exchange 项目,搜索结果的估计大小是使用原始 Exchange 邮件大小计算的。 但是,电子邮件将导出到 PST 文件中或作为单个邮件 (导出,) 格式为 EML 文件。 这两个导出选项使用的文件格式与原始 Exchange 邮件不同,这会导致导出的文件总大小与估计的文件大小不同。

  • 在导出过程中删除 Exchange 项的重复项。 对于 Exchange 项目,重复数据删除可减少导出的项目数。 在导出搜索结果时,可以选择取消重复的搜索结果。 对于 Exchange 邮件,这意味着仅导出邮件的单个实例,即使该邮件可能在多个邮箱中找到。 估计的搜索结果包括邮件的每个实例。 因此,如果在导出搜索结果时选择重复项删除选项,则导出的实际项目数可能大大少于估计的项目数。

搜索结果报告 (Results.csv 文件) 包含每个重复邮件的条目,并标识重复邮件所在的源邮箱。 这有助于识别包含重复邮件的所有邮箱。

注意

如果在导出搜索结果或仅下载报表时未选择 “包括已加密或格式无法识别的项目 ”选项,则会下载索引错误报告,但没有任何条目。 这并不意味着没有任何索引错误。 它只是表示未编制索引的项未包含在导出中。