添加爬网程序影响规则 (Search Server 2008)

更新时间: 2008年9月

应用到: Microsoft Search Server 2008

 

上一次修改主题: 2015-03-09

本文介绍如何添加用于对网站进行爬网的爬网程序影响规则。有关使用爬网程序影响规则的重要性的信息,请参阅管理爬网程序影响 (Search Server 2008)

提示

除非另有说明,否则本文中的信息对 Microsoft Search Server 2008 和 Microsoft Search Server 2008 Express 均适用。

添加爬网程序影响规则时,可指定下列限制之一,以便对指定的网站进行爬网:

  • 爬网程序每次可从网站中请求的最大文档数。

  • 爬网程序可从网站中请求文档的频率。

本文内容:

  • 添加爬网程序影响规则

  • 在网站名称中使用通配符

添加爬网程序影响规则

可以按照以下过程添加爬网程序影响规则。

Important重要信息
您必须是搜索服务管理员才能执行此过程。有关详细信息,请参阅添加或删除搜索服务管理员 (Search Server 2008)

添加爬网程序影响规则

  1. 在“搜索管理”页面的“爬网”部分中,单击“爬网程序影响规则”。

  2. 在“爬网程序影响规则”页面上,单击“添加规则”。

  3. 在“添加爬网程序影响规则”页面内“网站”部分的“网站”框中,键入将与此爬网程序影响规则关联的网站。有关在网站名称中使用通配符的信息,请参阅在网站名称中使用通配符。

    提示

    键入网站名称时,不得包含协议。例如,不要包括 http://file://

  4. 在“请求频率”部分中,选择下列选项之一:

    • 一次最多请求指定的文档数,并且在两次请求之间不等待。从“同时请求数”列表中选择在爬网程序对指定的网站进行爬网时想要爬网程序每次请求的最大文档数。

    • 一次请求一个文档,并在两次请求之间等待指定的时间。在“等待时间(秒)”框中,键入两次请求之间的等待时间(秒)。最短时间为 1 秒;最长时间为 1,000 秒。

  5. 单击“确定”。

在网站名称中使用通配符

可使用爬网程序影响规则指定单个网站,或者可以使用通配符,以便将规则应用于多个网站。下表列出了在添加爬网程序影响规则时可以在网站名称中使用的通配符。

使用 以便

* 作为网站名称

将规则应用于所有网站。

*.* 作为网站名称

将规则应用于名称中带点的网站。

*.网站名称.com 作为网站名称

将规则应用于 网站名称.com 域中的所有网站(例如,*.adventure-works.com)。

*.顶级域名(如 *.com 或 *.net)作为网站名称

将规则应用于以特定顶级域名(例如 *.com 或 *.net)结尾的所有网站。

?

表示网站名称的单个字符。例如,*.adventure-works?.com 适用于诸如 adventure-works1.com、adventure-works2.com 等域中的所有网站。

例如,管理员可以为 *.com 创建一个爬网程序影响规则,该规则适用于地址以 .com 结尾的所有 Internet 网站。门户管理员可以为 samples.microsoft.com 添加内容源。除非 samples.microsoft.com 有专用的爬网程序影响规则,否则 *.com 规则也适用于此网站。

另请参阅

概念

编辑爬网程序影响规则 (Search Server 2008)