关于内容源 (Search Server 2008)

更新时间: 2009年4月

应用到: Microsoft Search Server 2008

 

上一次修改主题: 2015-03-09

提示

除非另有说明,否则本文中的信息对 Microsoft Search Server 2008 和 Microsoft Search Server 2008 Express 均适用。

内容是指可对其进行爬网的任意项,例如网页、Microsoft Office Word 文档、业务数据或电子邮件。内容位于诸如网站、文件共享或 SharePoint 网站之类的内容库中。内容源将指定设置,这些设置定义对内容进行爬网的方式以及爬网遵循的计划。内容源包括一个或多个将从中开始爬网的内容库地址(也称为开始地址)。这些设置将应用于整个内容源中的所有开始地址。

默认内容源

如果组织只能对 SharePoint 网站中包含的内容进行爬网,则您可能不必创建其他内容源。Search Server 2008 在其初始部署期间定义了默认内容源。此默认内容源名为“本地 Office SharePoint Server 网站”。服务器场中所有 Web 应用程序的开始地址将自动包含在默认内容源中。默认情况下,将不对此内容源进行爬网。若要对默认内容源中的内容编制索引,您一定要手动对其启动爬网或计划对其进行爬网的时间。

创建新内容源

创建内容源时,您应指定一些设置来定义所爬网的内容的类型、对内容进行爬网的时间以及爬网行为,例如在开始地址命名空间中进行爬网的深度或允许的服务器跃距数。如果想要对多种类型的内容库进行爬网,或者想要按照其他计划对一些内容库进行爬网,则一定要创建其他内容源。Search Server 具有一个最多可以支持 500 个内容源的共享服务提供程序 (SSP)。有关详细信息,请参阅规划内容爬网 (Search Server 2008) 的“规划内容源”一节。有关如何配置爬网行为的详细信息,请参阅限制或增加被爬网的内容的数量 (Search Server 2008)

内容库的类型

对于每个内容源,您只能对一种类型的内容进行爬网。也就是说,您可以分别创建两个内容源,一个包含 SharePoint 网站的 URL,另一个包含文件共享的 URL。但是您创建的单个内容源不能既包含 SharePoint 网站的 URL 又包含文件共享的 URL。

下表列出了 Search Server 可对哪些类型的内容进行爬网和编制索引:

此类型的内容源 包含此类型的内容

SharePoint 网站

  • 来自同一个服务器场或不同 Microsoft Office SharePoint Server 2007、Windows SharePoint Services 3.0 或 Search Server 2008 服务器场的 SharePoint 网站

  • 来自 Microsoft Office SharePoint Portal Server 2003 或 Microsoft Windows SharePoint Services 2.0 服务器场的 SharePoint 网站

    提示

    Search Server 2008 爬网程序可以对所有 Office SharePoint Server 2007、Windows SharePoint Services 3.0 或 Search Server 2008 网站和子网站自动进行爬网。该爬网程序可以对以前版本的 SharePoint 产品和技术进行爬网。但是,您必须指定要对其进行爬网的每个首要网站(网站集)和每个子网站的 URL。
    在对门户网站进行爬网时,将对 Microsoft Office SharePoint Portal Server 2003 服务器场的网站目录中列出的网站进行爬网。有关网站目录的详细信息,请参阅关于网站目录(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x804)(该链接可能指向英文页面)。

网站

  • 在 SharePoint 网站上找不到的贵组织中的 Web 内容

  • Internet 网站上的内容

    提示

    当使用网站内容类型或 SharePoint 网站内容类型时,爬网程序的行为方式相同。只是可为这些内容源类型配置的爬网设置有所不同。

文件共享

  • 您组织内的文件共享中的内容

Exchange 公用文件夹

  • Microsoft Exchange Server 内容

Lotus Notes

内容的开始地址

每个内容源都将维护爬网程序用于连接到内容库的开始地址的列表。每个内容源最多可以包含 500 个开始地址。您无法使用多个内容源对相同地址进行爬网。例如,如果您使用特定内容源对网站集及其所有子网站进行爬网,则不能按照其他计划使用其他内容源对这些子网站之一进行爬网。

对内容进行爬网

您可以使用内容源手动启动爬网,或者计划对所选内容源进行爬网的时间和频率。如果想要按照其他计划对部分内容源中的内容进行爬网,则必须为该内容创建单独的内容源。为了提高性能和便于管理,建议尽可能少使用内容源。有关手动启动爬网或计划爬网时间的详细信息,请参阅对内容进行爬网 (Search Server 2008)

身份验证

当爬网程序访问内容源中列出的开始地址时,承载该内容的服务器必须对爬网程序进行身份验证,并且爬网程序必须被授予对服务器的访问权限。爬网程序所使用的用户帐户至少必须具有对内容进行爬网的读取权限。默认情况下,Search Server 使用默认内容访问帐户,且在向服务器进行身份验证时会使用 NTLM。有关详细信息,请参阅配置爬网程序进行身份验证的方式 (Search Server 2008)

另请参阅

概念

规划内容爬网 (Search Server 2008)
配置搜索以返回博客文章结果 (Search Server 2008)
配置客户端证书以对 SSL 网站进行爬网 (Search Server 2008)
配置 Web 部件属性 (Search Server 2008)