企业网站 Microsoft Graph 连接器
企业网站 Microsoft Graph 连接器允许组织为 公司拥有的网站的文章和内容编制索引。 配置连接器并从网站同步内容后,最终用户可以从任何 Microsoft 搜索客户端搜索该内容。
注意
请阅读Microsoft 365 管理中心中的设置 Microsoft Graph 连接器一文,了解常规连接器设置说明。
本文适用于配置、运行和监视企业网站连接器的任何人。 它补充了常规设置过程,并显示仅适用于企业网站连接器的说明。 本文还包括有关 故障排除的信息。
步骤 1:在Microsoft 365 管理中心中添加连接器
(有关更多详细信息,请参阅常规 设置说明)
步骤 2:命名连接
指定以下属性:
- Name(必选)
- 需要连接 ID ()
- 说明 (可选)
- 选择检查框 (必需)
连接 ID 为连接器创建隐式属性。 它必须是唯一的,最多只能包含 32 个字母数字字符。 若要更改 ID,请转到“高级设置”。
步骤 3:配置连接设置
若要连接到数据源,请填写网站的根 URL,并为结果选择自定义垂直。 完成此信息后,选择“测试连接”以验证设置。
网站 URL
指定要爬网的网站根目录。 企业网站连接器将使用此 URL 作为起点,并跟踪此 URL 中的所有链接进行爬网。
注意
在单个连接中最多可为 50 个不同的站点 URL 编制索引。 在“URL”字段中,输入以逗号 (,) 分隔的网站 URL。 例如,https://www.contoso.com,https://www.contosoelectronics.com
。
使用站点地图进行爬网
选择后,连接器将仅对站点地图中列出的 URL 进行爬网。 这还允许你在后面的步骤中配置增量爬网。 如果未选择或未找到站点地图,连接器将对网站根 URL 上找到的所有链接进行深层爬网。
动态站点配置
如果网站包含动态内容,例如位于内容管理系统(如 Confluence 或 Unily)中的网页,则可以启用动态爬网程序。 若要将其打开,请选择“ 为动态网站启用爬网”。 爬网程序将在开始爬网之前等待动态内容呈现。
除了“检查”框外,还有三个可选字段可用:
- DOM 就绪:输入爬网程序应用作内容已完全呈现且爬网应开始的信号的 DOM 元素。
- 要添加的标头:指定爬网程序在发送该特定 Web URL 时应包含哪些 HTTP 标头。 可以为不同的网站设置多个标头。 建议包括身份验证令牌值。
- 要跳过的标头:指定应从动态爬网请求中排除的任何不必要的标头。
标头应按以下语法添加: {"Root-URL":["TKey=TValue"]}
例如:{"https://www.contoso.com":["Token=Value","Type=Value2"]}
注意
仅代理爬网模式支持动态爬网。
爬网模式:云或本地
爬网模式确定要为云或本地编制索引的网站类型。 对于云网站,请选择“ 云 ”作为爬网模式。
此外,连接器现在支持对本地网站进行爬网。 若要访问本地数据,必须先安装和配置连接器代理。 若要了解详细信息,请参阅 Microsoft Graph 连接器代理。
对于本地网站,选择“ 代理 ”作为爬网模式,然后在 “本地代理 ”字段中,选择之前安装和配置的 Graph 连接器代理。
身份验证
无 要求无需身份验证
基本 要求用户名和密码。
具有 Microsoft Entra ID 的OAuth 2.0 需要资源 ID、客户端 ID 和客户端密码。
资源 ID、客户端 ID 和客户端密码值将取决于如何为网站设置基于Microsoft Entra ID的身份验证:
如果使用应用程序作为标识提供者和客户端应用来访问网站,则客户端 ID 和资源 ID 将是应用的应用程序 ID,客户端密码将是你在应用中生成的机密。
注意
有关将客户端应用程序配置为标识提供者的详细步骤,请参阅快速入门:使用Microsoft 标识平台注册应用程序和配置App 服务或Azure Functions应用以使用Microsoft Entra登录名。
配置客户端应用后,请确保通过转到应用的 “证书 & 机密 ”部分创建新的客户端密码。 复制页中显示的客户端机密值,因为它不会再次显示。
在以下屏幕截图中,可以看到获取客户端 ID、客户端密码和设置应用(如果要自行创建应用)的步骤。
品牌部分的设置视图:
身份验证部分的设置视图:
注意
无需在网站中为重定向 URI 指定上述路由。 仅当使用 Azure 在网站中发送的用户令牌进行身份验证时,才需要具有路由。
“Essentials”部分中的客户端 ID 视图:
“ 证书 & 机密 ”部分的客户端密码视图:
如果将应用程序用作网站的标识提供者作为资源,并使用其他应用程序来访问网站,则客户端 ID 将是第二个应用的应用程序 ID,客户端密码将是第二个应用中配置的机密。 但是,资源 ID 将是第一个应用的 ID。
注意
有关将客户端应用程序配置为标识提供者的步骤,请参阅快速入门:使用Microsoft 标识平台注册应用程序和配置App 服务或Azure Functions应用以使用Microsoft Entra登录名。
无需在此应用程序中配置客户端密码,但需要在“应用角色”部分添加应用角色,该 角色 稍后将分配给客户端应用程序。 请参阅图像,了解如何添加应用角色。
创建新的应用角色:
编辑新的应用角色:
配置资源应用后,创建客户端应用,并通过在客户端应用的 API 权限中添加上面配置的应用角色来授予其访问资源应用的权限。
注意
若要了解如何向客户端应用授予权限,请参阅 快速入门:将客户端应用程序配置为访问 Web API。
以下屏幕截图显示了向客户端应用授予权限的部分。
添加权限:
选择权限:
添加权限:
分配权限后,需要转到“证书 & 机密”部分,为此应用程序创建新的客户端密码。 复制页中显示的客户端机密值,因为它不会再次显示。 使用此应用的应用程序 ID 作为客户端 ID,将此应用中的机密用作客户端密码,将第一个应用的应用程序 ID 用作资源 ID。
SiteMinder 需要格式正确的 URL、 https://custom_siteminder_hostname/smapi/rest/createsmsession
用户名和密码。
Windows 身份验证仅在代理模式下可用。 它需要用户名、域和密码。 你需要在“用户名”字段中提供以下任何格式的 用户名 和域:domain\username 或 username@domain。 必须在“密码”字段中输入 密码 。 对于Windows 身份验证,提供的用户名还必须是安装代理的服务器中的管理员。
步骤 4:元标记设置
连接器提取根 URL 可能具有的任何元标记并显示它们。 可以选择要包含哪些标记进行爬网。
所选元标记可用于创建自定义属性。 此外,在“架构”页上,可以进一步管理它们 (可查询、可搜索、可检索、可精简) 。
步骤 5:自定义属性设置
可以通过为所选元标记或连接器的默认属性创建自定义属性来扩充索引数据。
添加自定义属性:
- 输入属性名称。 此名称将显示在此连接器的搜索结果中。
- 对于值,请选择“静态”或“字符串/正则表达式映射”。 静态值将包含在此连接器的所有搜索结果中。 字符串/正则表达式值将因添加的规则而异。
- 选择 “编辑值”。
- 如果选择了静态值,请输入要显示的字符串。
- 如果选择了字符串/正则表达式值:
- 在 “添加表达式” 部分的 “属性 ”列表中,从列表中选择默认属性或元标记。
- 对于 “示例值”,请输入一个字符串来表示可能显示的值的类型。 预览规则时使用此示例。
- 对于 “表达式”,请输入一个正则表达式来定义应出现在搜索结果中的属性值部分。 最多可以添加三个表达式。 若要了解有关正则表达式的详细信息,请参阅 .NET 正则表达式 或搜索 Web 以获取正则表达式参考指南。
- 在 “创建公式 ”部分中,输入公式以合并从表达式中提取的值。
步骤 6:添加 URL 以排除 (可选的爬网限制)
可通过两种方法防止对页面进行爬网:禁止在 robots.txt 文件中对其进行爬网,或将其添加到“排除”列表。
支持 robots.txt
连接器检查根站点是否有 robots.txt 文件。 如果存在,它将遵循并在该文件中找到的说明。 如果不希望连接器对网站上的某些页面或目录进行爬网,请在 robots.txt 文件中的“不允许”声明中包括页面或目录。
添加要排除的 URL
可以选择创建 排除列表 ,以在内容敏感或不值得爬网时排除某些 URL 被爬网。 若要创建排除列表,请浏览根 URL。 可以在配置过程中将排除的 URL 添加到列表中。
步骤 7:分配属性标签
可以通过从选项菜单中选择源属性来为每个标签分配源属性。 虽然此步骤不是必需的,但具有一些属性标签将提高搜索相关性,并确保最终用户的搜索结果更准确。
步骤 8:管理架构
在“管理架构”屏幕上,可以更改架构属性, (与默认或自定义属性关联的“查询”、“搜索”、“检索”和“优化) ”选项,添加可选别名,然后选择“内容”属性。
步骤 9:管理搜索权限
企业网站连接器仅支持对 每个人可见的搜索权限。 索引数据显示在搜索结果中,并且对组织中的所有用户可见。
步骤 10:设置刷新计划
企业网站连接器支持完全爬网和增量爬网。 仅支持在启用站点地图爬网的情况下设置的连接进行增量爬网。 可以在步骤 3 中选择用于爬网的站点地图。
在增量刷新间隔期间,仅对自上次增量刷新以来已修改的 URL 进行爬网。 在完整刷新间隔内,连接器将重新抓取网站的所有内容。 对于完全刷新,建议设置一到两周之间的较大刷新计划间隔,以确保连接器有足够的时间完成爬网。 建议进行计划刷新。
步骤 11:查看连接
按照常规 设置说明进行操作。
疑难解答
读取网站内容时,爬网可能会遇到一些源错误,这些错误由下面的详细错误代码表示。 若要获取有关错误类型的详细信息,请在选择连接后转到 错误详细信息 页。 选择 错误代码 以查看更详细的错误。 另请参阅 监视连接 以了解详细信息。
详细错误代码 | 错误消息 |
---|---|
6001 | 无法访问正在尝试编制索引的网站 |
6005 | 尝试编制索引的源页已根据 robots.txt 配置被阻止。 |
6008 | 无法解析 DNS |
6009 | 有关除 HTTP 404、408) 之外 (的所有客户端错误,请参阅 HTTP 4xx 错误代码了解详细信息。 |
6013 | 找不到正在尝试编制索引的源页。 (HTTP 404 错误) |
6018 | 源页面未响应,并且请求已超时。 (HTTP 408 错误) |
6021 | 尝试编制索引的源页在页面上没有文本内容。 |
6023 | 正在尝试编制索引的源页不受支持, (不是 HTML 页) |
6024 | 正在尝试编制索引的源页包含不支持的内容。 |
- 如果数据源由于网络问题而无法访问,或者数据源本身被删除、移动或重命名,则会发生错误 6001-6013。 检查提供的数据源详细信息是否仍然有效。
- 当数据源在页面上包含非文本内容或页面不是 HTML 时,会发生错误 6021-6024。 检查数据源并将此页面添加到排除列表中,或忽略错误。