对内容进行爬网 (Search Server 2008)

更新时间: 2010年9月

应用到: Microsoft Search Server 2008

 

上一次修改主题: 2010-09-20

提示

除非另有说明,否则本文中的信息对 Microsoft Search Server 2008 和 Microsoft Search Server 2008 Express 均适用。

对内容进行爬网是指系统访问和分析内容及其属性(有时称为“元数据”)从而建立可提供搜索查询服务的内容索引的过程。

通过成功地对内容进行爬网,爬网程序可以访问和读取您希望用于搜索查询的单个文件或内容片段。这些文件的关键字和元数据存储在内容索引(有时称为“索引”)中。该索引包含关键字和元数据,关键字存储在索引服务器的文件系统中,而元数据存储在搜索数据库中。该系统可维护关键字、与单个内容片段关联的元数据以及从中对内容进行爬网的源的 URL 之间的映射。

提示

爬网程序不会更改主服务器上的文件,而是访问和读取这些文件,并将这些文件的相关文本和元数据发送到索引服务器以编制索引。但是,由于爬网程序会读取主服务器上的内容,因此某些承载特定内容源的服务器可能会更新已爬网文件的上次访问日期。

确定何时对内容进行爬网

当服务器场已部署并运行一段时间后,搜索服务管理员通常必须更改爬网计划。其原因如下:

  • 为了适应停机期和高峰使用期的变化。

  • 为了适应作为内容宿主的服务器上内容更新频率的变化。

  • 计划爬网的目的是:

    • 独立于较快主服务器上承载的内容,对较慢主服务器上承载的内容进行爬网。

    • 对新的内容源进行爬网。

    • 爬网的频率与目标内容更新的频率相同。例如,可能需要对每日更新的库执行每日爬网,并对很少更新的库执行较低频率的爬网。

执行爬网

通常情况下,您需要通过安排爬网时间来自动完成大多数爬网。但有时,您可能需要手动启动爬网。例如,您可能需要启动爬网,以对要对其进行爬网和编制索引的内容应用爬网规则等管理更改,或者确定爬网日志中的错误是否已解决。

此外,不管是手动启动爬网还是按计划启动爬网,您都可能需要停止或暂停一个或多个爬网。例如,其服务器承载要进行爬网的内容的管理员可能通知您爬网会给服务器带来太多负载,或者您要进行爬网的服务器当前处于脱机状态。在上述任一情况下,您都可能需要停止或暂停爬网。

应考虑完全爬网比增量爬网需要更多的时间和服务器资源。完全爬网:

  • 比增量爬网占用索引服务器上更多的内存和 CPU 周期。

  • 当对服务器场中的内容进行爬网时,会占用 Web 前端服务器上更多的内存和 CPU 周期。这不适用于服务器场外部的内容。

  • 比增量爬网使用更多的网络带宽。

Important重要信息
如果停止对任何内容源进行爬网,则当下次对该内容源进行爬网时,Microsoft Search Server 2008 会自动对其执行完全爬网。即便您尝试执行增量爬网,也是如此。因此,请仔细考虑是否应该暂停爬网而不是停止爬网。

还必须注意不要同时暂停太多内容源的爬网,因为暂停的每个内容源都会消耗索引服务器上的内存和 CPU 资源。

若要启动完全爬网或增量爬网、停止、暂停或继续爬网,请执行下列过程之一:

计划爬网

以下各节提供了有关按计划对内容进行爬网时的注意事项的详细信息。

停机期和高峰使用期

应考虑承载要进行爬网的内容的服务器的停机期和高峰使用期。例如,如果您要对服务器场之外的许多不同服务器上承载的内容进行爬网,则这些服务器可能按不同计划进行备份并可能具有不同的高峰使用期。通常,服务器场之外的服务器的管理不在您的控制之中。因此,我们建议您与承载要进行爬网的内容的服务器的管理员协商爬网事宜,以确保您不会在停机期或高峰使用时间段内尝试对其服务器上的内容进行爬网。

提示

因为主服务器的使用高峰期和停机期会改变,所以我们建议您定期重新评估所有内容源的爬网计划,而不仅仅是重新评估新的内容源的爬网计划。

常见的一种情况是与您的 SharePoint 网站内容相关的内容不在贵组织的控制范围内。您可以将此内容的开始地址添加到现有内容源中或者为外部内容创建一个新内容源。由于外部网站的可用性千差万别,因此为不同的外部内容添加单独的内容源会很有帮助。这样,就可以在您的其他内容源的爬网时间以外对外部内容的内容源进行爬网。您可以根据每个网站的可用性按爬网计划更新外部内容。

频繁更新的内容

制定爬网计划时,应考虑某些内容源的更新频率通常高于其他内容源。例如,如果您知道某些网站集或外部源中的内容只在周五进行更新,那么对这些内容进行爬网的频率若高于每周一次就会浪费资源。但是,您的服务器场可能包含从周一到周五持续更新,但周六和周日通常不会更新的其他网站集。在这种情况下,您可能希望一周数次对这些网站进行爬网而周末则不进行爬网。

根据在您的环境中的各个网站集之间存储内容的方式,您可以在每个 Web 应用程序中为每个网站集创建其他内容源。例如,如果某个网站集只存储存档信息,则您对此内容进行爬网的频率可能不需要与对存储频繁更新的内容的网站集进行爬网的频率一样。在这种情况下,您可能需要使用不同的内容源对这两个网站集进行爬网,以便可根据不同的计划对它们进行爬网。

完全和增量爬网计划

作为搜索服务管理员,您可以为每个内容源单独配置爬网计划。对于每个内容源,您可以指定不同的完全爬网时间和增量爬网时间。

提示

您必须先对某个特定内容源运行完全爬网,然后才能运行增量爬网。

我们建议您基于运行搜索服务的服务器和承载已爬网内容的服务器的可用性、性能和带宽因素来制定爬网计划。

在制定爬网计划时,应考虑以下最佳方案:

  • 基于类似的可用性以及承载内容的服务器可接受的总体资源使用率,对内容源中的开始地址进行分组。

  • 将每个内容源的增量爬网安排在承载内容的服务器可用并且对服务器资源的需求较低时进行。您也可以添加或编辑一个或多个爬网程序影响规则,以便减少对其进行爬网的服务器上的负载。有关爬网程序影响规则的信息,请参阅管理爬网程序影响 (Search Server 2008)

  • 将服务器场内各服务器的爬网计划错开,从而使场内各服务器上的负载在时间上分布均匀。

  • 仅当下一节中列出的原因为必需时,才安排完全爬网。我们建议您执行完全爬网的频率应低于执行增量爬网的频率。

  • 将要求完全爬网的管理更改安排在完全爬网前不久执行。例如,我们建议您在执行下一个已计划的完全爬网之前尝试安排创建爬网规则,以便消除额外的完全爬网。

  • 根据索引服务器执行爬网的能力来执行同时爬网。我们建议您应错开爬网计划,以便索引服务器不会在同一时间使用多个内容源进行爬网。索引服务器的性能和承载内容的服务器的性能确定了爬网可以相互交迭的程度。随着时间推移,您可以逐渐熟悉每个内容源的典型爬网时段,从而可以制定用于安排爬网的策略。我们建议您记录爬网在您的环境中所用时间的趋势数据。

执行完全爬网的原因

搜索服务管理员执行完全爬网的原因包括:

  • 服务器场中的服务器上安装了一个或多个修补程序或 Service Pack。有关详细信息,请参阅该修补程序或 Service Pack 的说明。

  • 搜索服务管理员添加了新的托管属性。

  • 要重新对 Windows SharePoint Services 3.0 网站上的 ASPX 页面编制索引。

    提示

    爬网程序无法确定 Windows SharePoint Services 3.0 网站上的 ASPX 页面何时发生了变化。由于这一点,在删除单独的列表项时,增量爬网不会对视图或主页重新编制索引。我们建议您定期对包含 ASPX 文件的网站进行完全爬网,以确保对这些页面重新编制索引。

  • 要检测在上次对文件共享执行完全爬网之后对文件共享所做的安全更改。

  • 要解决连续增量爬网失败问题。在极少数情况下,如果在某个储存库中的任何级别上执行增量爬网时连续失败了一百次,则索引服务器将从索引中删除受影响的内容。

  • 已添加、删除或修改爬网规则。

  • 要修复损坏的索引。

  • 搜索服务管理员已创建一个或多个服务器名称映射。

  • 分配给默认内容访问帐户或爬网规则的帐户已更改。

在以下情况下,即使请求执行增量爬网,系统也会执行完全爬网:

  • 搜索服务管理员停止了以前的爬网。

  • 还原了内容数据库。

    提示

    如果您运行的是 Microsoft Office Server 的基础结构更新,则可以使用 Stsadm 命令行工具的还原操作来更改内容数据库还原是否会导致完全爬网。

  • 服务器场管理员已分离并重新附加内容数据库。

  • 从未对此网站执行完全爬网。

  • 更改日志不包含正在执行爬网的地址的条目。如果更改日志中没有对应于待爬网项的条目,则无法进行增量爬网。

  • 分配给默认内容访问帐户或爬网规则的帐户已更改。

  • 要修复损坏的索引。

    如果在索引中检测到损坏,则根据损坏的严重程度,系统可能会尝试执行完全爬网。

在初始部署后,您可以依据服务器场中的服务器以及承载内容的服务器的性能和容量来调整计划。

另请参阅

概念

如何对内容进行爬网 (Search Server 2008)
计划完全爬网 (Search Server 2008)
计划增量爬网 (Search Server 2008)