Рекомендации по обходу контента в SharePoint Server

ОБЛАСТЬ ПРИМЕНЕНИЯ:yes-img-132013 yes-img-162016 yes-img-192019 yes-img-seSubscription Edition no-img-sopSharePoint в Microsoft 365

Узнайте о рекомендациях по обходу контента в SharePoint Server.

Система поиска обходит контент, чтобы создать индекс поиска, по которому пользователи смогут выполнять поисковые запросы. В данной статье содержатся рекомендации по наиболее эффективному управлению обходом контента.

Узнайте, как вручную запрашивать обход контента и повторное индексирование для SharePoint в Microsoft 365.

Использование учетной записи доступа к контенту по умолчанию для обхода большей части контента

Учетная запись доступа к содержимому по умолчанию — это учетная запись домена, указанная для служба SharePoint Server, которая будет использоваться по умолчанию для обхода контента. Для простоты лучше использовать эту учетную запись для обхода как можно большего количества контента, указанного вашими источниками контента. Сведения об изменении учетной записи доступа к содержимому по умолчанию см. в статье Изменение учетной записи по умолчанию для обхода контента в SharePoint Server.

Когда для обхода определенного URL-адреса не удается использовать учетную запись доступа к контенту по умолчанию (например, по причинам, связанным с безопасностью), вы можете создать правило обхода, чтобы указать один из следующих способов проверки подлинности программы-обходчика:

  • другая учетная запись доступа к контенту;

  • сертификат клиента;

  • учетные данные формы;

  • файл cookie для обхода контента;

  • анонимный доступ.

Дополнительные сведения см. в статье Управление правилами обхода контента в SharePoint Server.

Эффективное использование источников контента

Источник содержимого — это набор параметров в приложении служба , который используется для указания каждого из следующих компонентов:

  • Один или несколько начальных адресов для обхода.

  • Тип содержимого в начальных адресах (например, сайты SharePoint Server, общие папки или бизнес-данные). В источнике контента можно указать только один тип контента для обхода. Например, для обхода сайтов SharePoint Server используется один источник контента, а для обхода общих папок — другой источник контента.

  • Расписание и приоритет обхода для полных или добавочных обходов, которые будут применяться ко всем хранилищам контента, указанным в источнике контента.

При создании приложения службы поиска система поиска автоматически создает и настраивает один источник контента с именем Локальные сайты SharePoint. Этот предварительно настроенный источник контента предназначен для обхода профилей пользователей и обхода всех сайтов SharePoint Server в веб-приложениях, с которыми связано приложение служба . Этот источник контента также можно использовать для обхода контента в других фермах SharePoint Server, включая фермы SharePoint Server 2007, фермы SharePoint Server 2010, фермы SharePoint Server 2013 или другие фермы SharePoint Server.

Создавайте дополнительные источники контента, если вы хотите выполнить любую из следующих задач:

  • выполнять обход контента других типов;

  • ограничить или увеличить объем контента для обхода;

  • увеличить или уменьшить частоту обхода определенного контента;

  • Задайте разные приоритеты для обхода определенного содержимого (это требование относится к полному и добавочному обходу контента, но не к непрерывному обходу контента).

  • Обход определенного содержимого по разным расписаниям (это требование применяется к полному и добавочному обходу контента, но не к непрерывному обходу контента).

Но чтобы максимально упростить администрирование, рекомендуется ограничить количество создаваемых и используемых источников контента.

Использование источников контента для планирования обходов

Вы можете изменить предварительно настроенный источник контента Локальные сайты SharePoint, чтобы указать расписание обхода контента (по умолчанию расписание обхода контента не указывается). Для любого источника контента можно запускать обходы вручную, но мы рекомендуем планировать добавочные обходы или включать непрерывные обходы, чтобы гарантировать регулярный обход контента.

Рекомендуется использовать разные источники контента для обхода контента по разным расписаниям по следующим причинам:

  • согласование периодов простоя и периодов пиковой нагрузки серверов;

  • обход контента, размещенного на менее производительных серверах, отдельно от контента, размещенного на производительных серверах;

  • частый обход контента, который чаще обновляется.

Обход контента может существенно снизить производительность серверов, на которых размещается контент. Результат зависит от того, имеют ли серверы узла достаточно ресурсов (особенно это касается ЦП и ОЗУ) для обработки нагрузки. Поэтому при планировании расписаний обхода учитывайте приведенные ниже рекомендации.

  • Планируйте обходы для каждого источника контента в периоды, когда серверы, на которых размещается контент, доступны и обращение к ресурсам серверов минимально.

  • Составляйте графики обхода контента таким образом, чтобы распределять во времени нагрузку на серверы обхода и серверы узлов. Это позволит вам оптимизировать расписания обхода, так как в журнале обхода контента вы сможете посмотреть, какая длительность характерна для каждого источника контента. Дополнительные сведения см. в статье Журнал обхода контента в разделе Просмотр диагностики поиска в SharePoint Server.

  • Запускайте полные обходы, только когда это необходимо. Дополнительные сведения см. в статье Причины полного обхода контента в статье Планирование обхода контента и федерации в SharePoint Server. Для любого административного изменения, требующего полного обхода контента, например создания правила обхода контента, выполните изменение незадолго до следующего полного обхода, чтобы дополнительное полное обход не требовалось. Дополнительные сведения см. в статье Управление правилами обхода контента в SharePoint Server.

Обход профилей пользователей перед обходом сайтов SharePoint Server

По умолчанию в первом приложении службы поиска в ферме предварительно настроенный источник контента Локальные сайты SharePoint содержит по крайней мере два начальных адреса:

  • https://webAppUrl, который предназначен для обхода URL-адреса зоны по умолчанию, указанного для существующих веб-приложений.

  • sps3s://myWebAppUrl, который предназначен для обхода профилей пользователей

Однако при развертывании "Люди поиска" рекомендуется создать отдельный источник содержимого для начального адреса sps3s://myWebAppUrl и сначала выполнить обход для этого источника контента. Причина выполнения обхода заключается в том, что после его завершения поисковая система создает список для стандартизации имен людей. Это происходит таким образом, что если имя пользователя имеет разные формы в одном наборе результатов поиска, все результаты для этого пользователя отображаются в одной группе (называемой блоком результатов). Например, для поискового запроса "Anne Weiler" все документы, созданные Энн Вейлер или А. Вейлер или псевдоним AnneW могут отображаться в блоке результатов с меткой "Документы От Энн Вейлер". Аналогичным образом, все документы, созданные любым из этих удостоверений, могут отображаться под заголовком "Энн Вейлер" на панели уточнения, если "Автор" является одной из категорий там.

Обход профилей пользователей, а затем обход сайтов SharePoint Server

  1. Убедитесь, что учетной записи пользователя, с помощью которой выполняется эта процедура, назначены права администратора приложения службы поиска, которое требуется настроить.

  2. Следуйте инструкциям в статье Развертывание поиска людей в SharePoint Server. В рамках этих инструкций вы выполняете следующие задачи:

  • Create a content source that is only for crawling user profiles (the profile store). You might give that content source a name such as People. В новом источнике контента в разделе Начальные адреса введите sps3s:// myWebAppUrl, где myWebAppUrl — ЭТО URL-адрес узла личного сайта.

  • Запустите обход для созданного источника содержимого Люди.

  • Удалите начальный адрес sps3s://myWebAppUrl из предварительно настроенного источника содержимого локальных сайтов SharePoint.

  1. Подождите около двух часов, пока не завершится обход контента для источника Люди.

  2. Начните первый полный обход контента для источника Локальные сайты SharePoint.

Использование непрерывных обходов для обеспечения актуальности результатов поиска

Включить непрерывное сканирование — это опция расписания обхода, которую можно выбрать при добавлении или редактировании источника контента с типом Сайты SharePoint. При непрерывном обходе сканируется контент, который был добавлен, изменен или удален после последнего обхода. Непрерывный обход запускается с предварительно заданным интервалом. Интервал по умолчанию — каждые 15 минут, но вы можете настроить непрерывное сканирование с более короткими интервалами с помощью Microsoft PowerShell. Так как непрерывное сканирование выполняется так часто, они помогают обеспечить актуальность индекса поиска даже для часто обновляемого содержимого SharePoint Server. Кроме того, в то время как добавочный или полный обход контента задерживается из-за нескольких попыток обхода контента, возвращающих ошибку для определенного элемента, непрерывный обход может выполнять обход другого содержимого и способствовать обновлению индекса, так как непрерывный обход не обрабатывает и не повторяет элементы, которые многократно возвращают ошибки. Такие ошибки повторяются во время добавочного обхода контента для очистки, который автоматически выполняется каждые четыре часа для источников контента с включенным непрерывным обходом. Элементы, которые продолжают возвращать ошибки во время добавочного обхода контента, будут повторно использоваться во время будущих добавочных обходов, но не будут приняты непрерывным обходом до тех пор, пока ошибки не будут устранены.

Отдельная операция непрерывного обхода контента обрабатывает все источники контента в приложении-службе поиска, для которых включен непрерывный обход. Аналогично, интервал при непрерывном обходе применяется ко всем источникам контента в приложении-службе поиска, для которых включен непрерывный обход. Дополнительные сведения см. в статье Управление непрерывными обходами контента в SharePoint Server.

Непрерывный обход контента увеличивает нагрузку на программу-обходчик и цели обхода. Планируйте и развертывайте архитектуру с учетом увеличенного потребления ресурсов. Рекомендуем настроить один или несколько интерфейсных веб-серверов в качестве выделенных целей для обхода каждого большого источника контента. Дополнительные сведения см. в статье Управление нагрузкой при обходе (SharePoint Server 2010).

Использование правил обхода для исключения нерелевантного контента при обходе

Так как при обходе контента потребляются ресурсы и полоса пропускания, возможно, при первом развертывании следует обойти небольшой объем релевантного контента, вместо того чтобы обходить большой объем контента, некоторая часть которого может быть нерелевантна. Чтобы ограничить количество обходимого контента, вы можете создать следующие правила обхода:

  • исключение из обхода нерелевантного контента путем исключения одного или нескольких URL-адресов;

  • Обход ссылок по URL-адресу без обхода самого URL-адреса. Это удобно для сайтов, которые не содержат соответствующего содержимого, но имеют ссылки на соответствующее содержимое.

По умолчанию средство-обходчик не будет следовать за сложными URL-адресами, которые являются URL-адресами, содержащими вопросительный знак, за которым следуют дополнительные параметры, например: http://contoso/page.aspx?x=y. Если включить обходчик для выполнения сложных URL-адресов, это может привести к тому, что средство-обходчик будет собирать гораздо больше URL-адресов, чем ожидалось или уместно. Это чрезмерное ассимиляция может привести к тому, что средство-обходчик будет собирать ненужные ссылки, заполнять базу данных обхода избыточными ссылками и привести к большому индексу.

Эти меры помогут сократить использование серверных ресурсов и сетевого трафика, а также повысить релевантность результатов поиска. После первоначального развертывания можно проверить журналы запросов и обхода контента и при необходимости скорректировать источники контента и правила обхода, чтобы включить в обход больше контента. Дополнительные сведения см. в статье Управление правилами обхода контента в SharePoint Server.

Обход зоны по умолчанию веб-приложений SharePoint Server

При обходе зоны по умолчанию веб-приложения SharePoint Server обработчик запросов автоматически сопоставляет и возвращает URL-адреса результатов поиска, чтобы они были относительно зоны альтернативного сопоставления доступа (AAM), из которой выполняются запросы. Этот параметр позволяет пользователям легко просматривать и открывать результаты поиска.

Но если вы выполняете обход зоны веб-приложения, которая не является зоной по умолчанию, обработчик запросов не сопоставляет URL-адреса результатов поиска (то есть их релевантность зоне альтернативного сопоставления доступа, из которой выполняются запросы, не обеспечивается). Вместо этого URL-адреса результатов поиска будут относительно зоны, не используемой по умолчанию для обхода. Из-за этого параметра пользователи могут не иметь возможности просматривать или открывать результаты поиска.

Предположим, имеются следующие сопоставления для альтернативного доступа для веб-приложения с именем WebApp1:

По умолчанию Общедоступный URL-адрес Поставщик проверки подлинности
По умолчанию https://contoso Проверка подлинности Windows: NTLM
Экстрасеть https://fabrikam Проверка подлинности на основе форм
Интрасеть http://fabrikam Проверка подлинности Windows: NTLM

Теперь допустим, что вы обходите зону по умолчанию https://contoso. Когда пользователи выполняют запросы из https://contoso/searchresults.aspx, URL-адреса результатов из WebApp1 будут все относительно https://contoso, и, следовательно, будут иметь форму https://contoso/ _path_/ _result_.aspx.

Аналогичным образом, когда запросы исходят из зоны экстрасети, в этом случае из WebApp1 все будет относительно https://fabrikam, и, следовательно, https://fabrikam/searchresults.aspx—results будет иметь форму https://fabrikam/ _path_/ _result_.aspx.

Так как запрос и URL-адрес результатов поиска в обоих предыдущих случаях находятся в одной и той же зоне, пользователи смогут легко просматривать и открывать результаты поиска без необходимости переходить на другой контекст безопасности другой зоны.

А теперь допустим, что вы обходите зону, которая не является зоной по умолчанию, например зону интрасети http://fabrikam. В таком случае для запросов из любой зоны URL-адреса результатов из WebApp1 всегда будут относиться к зоне обхода, которая не является зоной по умолчанию. То есть запрос из https://contoso/searchresults.aspx, https://fabrikam/searchresults.aspxили http://fabrikam/searchresults.aspx будет возвращать URL-адреса результатов поиска, которые начинаются с зоны, не являющейся обходом по умолчанию, и поэтому будут иметь форму http://fabrikam/ _path_/ _result_.aspx. Этот параметр может вызвать непредвиденное или проблемное поведение, например:

  • При попытке открыть результаты поиска пользователям может быть предложено ввести учетные данные, которых у них нет. Например, у пользователей, которые проходят проверку подлинности на основе форм в зоне экстрасети, может не быть учетных данных для проверки подлинности Windows.

  • Результаты из WebApp1 будут использовать HTTP, но пользователи могут выполнять поиск из зоны экстрасети в https://fabrikam/searchresults.aspx. Эта операция поиска пользователями может повлиять на безопасность, так как в результатах не будет использоваться шифрование SSL.

  • Уточнения могут быть неправильно отфильтрованы, потому что фильтрация происходит на общедоступном URL-адресе для зоны по умолчанию, а не на URL-адресе, обход которого выполнялся. Эта неправильная фильтрация связана с тем, что свойства на основе URL-адресов в индексе будут относительно URL-адреса, отличного от url-адреса по умолчанию, который был обходен.

Уменьшение влияния обхода контента на целевые объекты обхода контента SharePoint Server

Вы можете уменьшить влияние обхода контента на целевые объекты обхода контента SharePoint Server (то есть интерфейсные веб-серверы SharePoint Server), выполнив следующие задачи:

  • Для небольшой среды SharePoint Server весь трафик обхода контента перенаправляется на один интерфейсный веб-сервер SharePoint Server. В большой среде перенаправляйте весь трафик обхода контента на определенную группу интерфейсных веб-серверов. Этот шаблон перенаправления обхода не позволяет сканеру использовать те же ресурсы, которые используются для отрисовки и обслуживания веб-страниц и содержимого для активных пользователей.

  • Ограничьте использование базы данных поиска в Microsoft SQL Server, чтобы предотвратить использование программой-обходчиком общих дисковых и процессорных ресурсов SQL Server при обходе.

Дополнительные сведения см. в статье Управление нагрузкой при обходе (SharePoint Server 2010).

Использование правил воздействия программы-обходчика для ограничения воздействия обхода

Чтобы ограничить воздействие программы-обходчика, можно также создать правила воздействия программы-обходчика, которые доступны на странице "Имя_приложения-службы_поиска: администрирование поиска". A crawler impact rule specifies the rate at which the crawler requests content from a start address or range of start addresses. Specifically, a crawler impact rule either requests a specified number of documents at a time from a URL without waiting between requests, or it requests one document at a time from the URL and waits a specified time between requests. Each crawler impact rule applies to all crawl components.

Для серверов в своей организации вы можете настроить правила воздействия программы-обходчика на основе известных данных о производительности и емкости сервера. Однако этот параметр может оказаться невозможным для внешних сайтов. Поэтому вы можете неумышленно использовать слишком много ресурсов на внешних серверах, запрашивая слишком много контента или делая это слишком часто. Такое большое использование содержимого может привести к тому, что администраторы этих внешних серверов ограничат доступ к серверу, чтобы вам стало трудно или невозможно выполнить обход этих репозиториев. Таким образом, настройте правила воздействия обходчика, чтобы они как можно меньше влияли на внешние серверы, пока вы по-прежнему сканируете содержимое достаточно часто, чтобы убедиться, что актуальность индекса соответствует вашим требованиям.

Использование разрешений для групп Active Directory вместо отдельных пользователей

Возможность пользователя или группы выполнять различные действия на сайте определяется назначенным уровнем разрешений. Если вы добавляете или удаляете пользователей по отдельности для разрешений сайта или используете группу SharePoint Server для указания разрешений сайта и изменяете членство в группе, средство-обход контента должно выполнить обход только для безопасности, который обновляет все затронутые элементы в индексе поиска, чтобы отразить изменения. Аналогичным образом, добавление или обновление политики веб-приложения с разными пользователями или группами SharePoint Server приведет к обходу всего содержимого, на которое распространяется эта политика. Это повышает нагрузку обхода контента и может уменьшить актуальность результатов поиска. Поэтому для указания разрешений сайта лучше всего использовать доменные службы Active Directory группы (AD DS), так как для этих групп не требуется, чтобы средство-обходчик обновлял затронутые элементы в индексе поиска.

Добавление второго компонента обхода контента для обеспечения отказоустойчивости

При создании приложения службы поиска топология поиска по умолчанию содержит один компонент обхода. Он извлекает элементы хранилищ контента, загружает элементы на сервер, на котором размещен компонент обхода, передает элементы и связанные метаданные компоненту обработки контента и добавляет касающуюся обхода информацию в связанные базы данных обхода. Вы можете добавить второй компонент обхода контента для обеспечения отказоустойчивости. Если один компонент обхода контента становится недоступным, оставшийся компонент берет на себя все выполнение обхода. Для большинства ферм SharePoint Server достаточно двух компонентов обхода контента.

Дополнительные сведения см. в следующих статьях:

Управление ресурсами среды для повышения производительности обхода контента

Существует несколько факторов, которые могут ухудшать производительность программы-обходчика при сканировании контента, его загрузке на сервер обхода (сервер, на котором размещен компонент обхода) и передаче в компоненты обработки контента. Чтобы повысить производительность обхода контента, можно выполнить следующую задачу:

Возможное ограничение производительности Решение, которое нужно применить
Длительное время отклика от серверов для обхода Добавьте дополнительные ЦП и ОЗУ и более быстрый дисковый ввод-вывод
Малая полоса пропускания сети Установите 1 или 2 сетевых адаптера с одним гигабитом в секунду на каждом сервере обхода контента.
Обработка контента Добавьте дополнительные компоненты обработки контента и дополнительные ресурсы ЦП для каждого из них
Медленная обработка компонентами индекса Добавьте ресурсы ввода-вывода для серверов, на которых размещены компоненты индекса

Дополнительные сведения см. в следующих источниках:

Убедитесь, что перед изменением топологии поиска отсутствуют активные обходы

Мы рекомендуем убедиться, что не выполняются обходы, прежде чем инициировать изменение топологии поиска. В противном случае в процессе изменения топологии возможны сложности.

При необходимости можно вручную остановить или приостановить полный или добавочный обход контента, а также отключить непрерывный обход. Дополнительные сведения см. в следующих статьях:

Примечание.

Приостановка обхода контента имеет недостаток, из-за которого ссылки на компоненты обхода контента могут оставаться в MSSCrawlComponentsState таблице в базе данных администрирования поиска. Из-за этого может возникнуть проблема при удалении каких-либо компонентов обхода (например, если вы захотите удалить из фермы сервер, на котором размещены такие компоненты). Однако при остановке обхода ссылки на компоненты обхода MSSCrawlComponentsState контента в таблице удаляются. Поэтому чтобы удалить компоненты обхода контента, лучше останавливать, а не приостанавливать обход.

Чтобы убедиться, что обход контента не выполняется, _Search_service_application_name_: Manage Content Sources убедитесь, что значение в поле Состояние для каждого источника контента неактивно или приостановлено. (When a crawl is completed, or when you stop a crawl, the value in the Status field for the content source will change to Idle.)

Удаление компонентов обхода контента из узла обхода перед удалением узла из фермы

В случае удаления из фермы сервера, на котором размещен компонент обхода контента, система поиска может быть не в состоянии обходить контент. Поэтому перед удалением узла обхода контента из фермы настоятельно рекомендуется выполнить следующие задачи:

  1. Убедитесь в том, что активные обходы отсутствуют.

    Подробнее см. в предыдущем разделе Убедитесь, что перед изменением топологии поиска отсутствуют активные обходы.

  2. Удалите или переместите компоненты обхода контента, размещенные на этом узле.

Дополнительные сведения см. в следующих источниках:

Проверка функциональности обхода контента и запросов после обновления или изменения конфигурации обхода

Мы рекомендуем проверять функциональность обхода контента и запросов на ферме серверов после изменения конфигурации и применения обновлений. Ниже приведен пример простой процедуры для выполнения такой проверки.

Проверка функциональности обхода контента и запросов

  1. Убедитесь, что учетной записи пользователя, с помощью которой выполняется эта процедура, назначены права администратора приложения службы поиска, которое требуется настроить.

  2. Создайте источник контента, который вы будете временно использовать только для этой проверки.

    В новом источнике контента в разделе Начальные адреса в поле Введите ниже начальные адреса (по одному в строке) укажите начальный адрес, содержащий несколько элементов, еще не добавленных в индекс (например, несколько TXT-файлов, расположенных в файловом ресурсе). Дополнительные сведения см. в статье Добавление, изменение и удаление источника содержимого в SharePoint Server.

  3. Начните полный обход этого источника контента.

    Дополнительные сведения см. в статье Start, pause, resume, or stop a crawl in SharePoint Server. После завершения обхода _Search_service_application_name_: Manage Content Sources на странице значение в столбце Состояние источника контента будет бездействует. (To update the Status column, refresh the Manage Content Sources page by clicking Refresh.)

  4. По завершении обхода контента перейдите в центр поиска и выполните поисковые запросы, чтобы найти эти файлы.

    Если в развертывании еще нет центра поиска, см. статью Создание сайта центра поиска в SharePoint Server.

  5. После завершения тестирования удалите временный источник контента.

    Эта операция удаляет элементы, указанные этим источником контента, из индекса поиска, чтобы они не отображались в результатах поиска после завершения тестирования.

Использование отчетов о работоспособности и журналов обхода контента для диагностики проблем

Журнал обхода контента отслеживает данные о состоянии контента, для которого выполнен обход. Журнал включает в себя представления для источников контента, узлов, ошибок, баз данных, URL-адресов и истории. Например, с помощью этого журнала можно определить, когда был выполнен последний успешный обход для определенного источника контента, добавлен ли просканированный контент в индекс, исключен ли он в связи с правилом обхода и произошел ли сбой обхода контента из-за ошибки.

Отчеты о работоспособности обхода контента содержат подробную информацию о скорости, задержках и актуальности обхода контента, а также обработке контента, загрузке ЦП и памяти, непрерывных обходах и очереди обхода.

С помощью отчетов о работоспособности и журнала обхода контента можно диагностировать проблемы с функциями поиска. Диагностические сведения помогут определить, стоит ли настраивать элементы, например источники контента, правила обхода, правила воздействия программы-обходчика, компоненты обхода и базы данных обхода.

Дополнительные сведения см. в разделе Просмотр диагностики поиска в SharePoint Server.