Рекомендации по обходу контента в SharePoint ServerBest practices for crawling in SharePoint Server

Применимо к: да 2013да 2016да 2019нет SharePoint OnlineAPPLIES TO: yes2013 yes2016 yes2019 noSharePoint Online

Ознакомьтесь с рекомендациями по обходу контента в SharePoint Server.Learn about best practices for crawling in SharePoint Server.

Система поиска обходит контент, чтобы создать индекс поиска, по которому пользователи смогут выполнять поисковые запросы. В данной статье содержатся рекомендации по наиболее эффективному управлению обходом контента.The Search system crawls content to build a search index that users can run search queries against. This article contains suggestions as to how to manage crawls most effectively.

Использование учетной записи доступа к контенту по умолчанию для обхода большей части контентаUse the default content access account to crawl most content

Учетная запись по умолчанию для доступа к контенту — это учетная запись домена, которая указывается для службы поиска SharePoint Server по умолчанию для обхода.The default content access account is a domain account that you specify for the SharePoint Server Search service to use by default for crawling. Для простоты лучше использовать эту учетную запись для обхода как можно большего количества контента, указанного вашими источниками контента.For simplicity, it is best to use this account to crawl as much as possible of the content that is specified by your content sources. Чтобы изменить учетную запись по умолчанию для доступа к контенту, ознакомьтесь со статьей изменение учетной записи по умолчанию для обхода в SharePoint Server.To change the default content access account, see Change the default account for crawling in SharePoint Server.

Когда для обхода определенного URL-адреса не удается использовать учетную запись доступа к контенту по умолчанию (например, по причинам, связанным с безопасностью), вы можете создать правило обхода, чтобы указать один из следующих способов проверки подлинности программы-обходчика:When you cannot use the default content access account for crawling a particular URL (for example, for security reasons), you can create a crawl rule to specify one of the following alternatives for authenticating the crawler:

  • другая учетная запись доступа к контенту;A different content access account

  • сертификат клиента;A client certificate

  • учетные данные формы;Form credentials

  • файл cookie для обхода контента;A cookie for crawling

  • анонимный доступ.Anonymous access

Дополнительные сведения см в разделе Manage Rule обхода в SharePoint Server.For more information, see Manage crawl rules in SharePoint Server.

Эффективное использование источников контентаUse content sources effectively

Источник контента — это набор параметров в службе поиска, с помощью которого можно задать следующие характеристики.A content source is a set of options in a Search service application that you use to specify each of the following:

  • Один или несколько начальных адресов для обхода.One or more start addresses to crawl.

  • Тип контента в начальных адресах (например, сайтов SharePoint Server, файловых ресурсов или бизнес-данных).The type of content in the start addresses (such as SharePoint Server sites, file shares, or line-of-business data). В источнике контента можно указать только один тип контента для обхода.You can specify only one type of content to crawl in a content source. Например, вы можете использовать один источник контента для обхода сайтов SharePoint Server и другой источник контента для обхода файловых ресурсов.For example, you would use one content source to crawl SharePoint Server sites, and a different content source to crawl file shares.

  • Расписание и приоритет обхода для полных или добавочных обходов, которые будут применяться ко всем хранилищам контента, указанным в источнике контента.A crawl schedule and a crawl priority for full or incremental crawls that will apply to all of the content repositories that the content source specifies.

При создании приложения службы поиска система поиска автоматически создает и настраивает один источник контента с именем Локальные сайты SharePoint.When you create a Search service application, the search system automatically creates and configures one content source, which is named Local SharePoint sites. Этот предварительно настроенный источник контента предназначен для обхода профилей пользователей и для обхода всех сайтов SharePoint Server в веб-приложениях, с которыми связано приложение-служба поиска.This preconfigured content source is for crawling user profiles, and for crawling all SharePoint Server sites in the web applications with which the Search service application is associated. Вы также можете использовать этот источник контента для обхода контента других ферм SharePoint Server, в том числе ферм SharePoint Server 2007, ферм SharePoint Server 2010, ферм SharePoint Server 2013 или других ферм SharePoint Server.You can also use this content source for crawling content in other SharePoint Server farms, including SharePoint Server 2007 farms, SharePoint Server 2010 farms, SharePoint Server 2013 farms, or other SharePoint Server farms.

Создавайте дополнительные источники контента, когда необходимо выполнять одно из следующего:Create additional content sources when you want to do any of the following:

  • выполнять обход контента других типов;Crawl other types of content

  • ограничить или увеличить объем контента для обхода;Limit or increase how much content to crawl

  • увеличить или уменьшить частоту обхода определенного контента;Crawl certain content more or less frequently

  • установить другие приоритеты для обхода определенного контента (применяется ко всем добавочным, но не непрерывным обходам контента);Set different priorities for crawling certain content (this applies to full and incremental crawls, but not to continuous crawls)

  • выполнять обход определенного контента по другим расписаниям (применяется ко всем добавочным, но не непрерывным обходам контента).Crawl certain content on different schedules (this applies to full and incremental crawls, but not to continuous crawls)

Но чтобы максимально упростить администрирование, рекомендуется ограничить количество создаваемых и используемых источников контента.However, to keep administration as easy as possible, we recommend that you limit the number of content sources that you create and use.

Использование источников контента для планирования обходовUsing content sources to schedule crawls

Вы можете изменить предварительно настроенный источник контента Локальные сайты SharePoint, чтобы указать расписание обхода контента (по умолчанию расписание обхода контента не указывается). Для любого источника контента можно запускать обходы вручную, но мы рекомендуем планировать добавочные обходы или включать непрерывные обходы, чтобы гарантировать регулярный обход контента.You can edit the preconfigured content source Local SharePoint sites to specify a crawl schedule; it does not specify a crawl schedule by default. For any content source, you can start crawls manually, but we recommend that you schedule incremental crawls or enable continuous crawls to make sure that content is crawled regularly.

Рекомендуется использовать разные источники контента для обхода контента по разным расписаниям по следующим причинам:Consider using different content sources to crawl content on different schedules for the following reasons.

  • согласование периодов простоя и периодов пиковой нагрузки серверов;To accommodate server down times and periods of peak server usage.

  • обход контента, размещенного на менее производительных серверах, отдельно от контента, размещенного на производительных серверах;To crawl content that is hosted on slower servers separately from content that is hosted on faster servers.

  • частый обход контента, который чаще обновляется.To frequently crawl content that is updated more often.

Обход контента может существенно снизить производительность серверов, на которых размещается контент. Результат зависит от того, имеют ли серверы узла достаточно ресурсов (особенно это касается ЦП и ОЗУ) для обработки нагрузки. Поэтому при планировании расписаний обхода учитывайте приведенные ниже рекомендации.Crawling content can significantly decrease the performance of the servers that host the content. The effect depends on whether the host servers have sufficient resources (especially CPU and RAM) to handle the load. Therefore, when you plan crawl schedules, consider the following best practices:

  • Планируйте обходы для каждого источника контента в периоды, когда серверы, на которых размещается контент, доступны и обращение к ресурсам серверов минимально.Schedule crawls for each content source during times when the servers that host the content are available and when there is low demand on the server resources.

  • Составляйте графики обхода контента таким образом, чтобы распределять во времени нагрузку на серверы обхода и серверы узлов.Stagger crawl schedules so that the load on crawl servers and host servers is distributed over time. Это позволит вам оптимизировать расписания обхода, так как в журнале обхода контента вы сможете посмотреть, какая длительность характерна для каждого источника контента.You can optimize crawl schedules in this manner as you become familiar with the typical crawl durations for each content source by checking the crawl log. Дополнительные сведения см. в разделе Журнал обхода контента в статье Просмотр диагностики поиска в SharePoint Server.For more information, see Crawl log in View search diagnostics in SharePoint Server.

  • Запускайте полные обходы, только когда это необходимо.Run full crawls only when it is necessary. Для получения дополнительных сведений ознакомьтесь с причинами выполнения полного обхода в статье Планирование обхода контента и Федерации в SharePoint Server.For more information, see Reasons to do a full crawl in Plan crawling and federation in SharePoint Server. Все административные изменения, которые вступают в силу только после полного обхода (например, создание правила обхода), выполняйте незадолго до следующего полного обхода, чтобы не делать дополнительный полный обход.For any administrative change that requires a full crawl to take effect, such as creation of a crawl rule, perform the change shortly before the next full crawl so that an additional full crawl is not necessary. Дополнительные сведения см в разделе Manage Rule обхода в SharePoint Server.For more information, see Manage crawl rules in SharePoint Server.

Обход профилей пользователей перед обходом сайтов SharePoint ServerCrawl user profiles before you crawl SharePoint Server sites

По умолчанию в первом приложении службы поиска в ферме предварительно настроенный источник контента Локальные сайты SharePoint содержит по крайней мере два начальных адреса:By default, in the first Search service application in a farm, the preconfigured content source Local SharePoint sites contains at least the following two start addresses:

  • https://webAppUrl, предназначенный для обхода URL-адреса зоны по умолчанию, указанного для существующих веб-приложенийhttps://webAppUrl, which is for crawling the Default Zone URL specified for the existing Web Application(s)

  • sps3s://Мивебаппурл, предназначенный для обхода профилей пользователейsps3s://myWebAppUrl, which is for crawling user profiles

Однако при развертывании "Поиск людей" рекомендуется создать отдельный источник контента для начального адреса sps3s://Мивебаппурл и запустить обход контента для этого источника контента.However, if you are deploying "People Search", we recommend that you create a separate content source for the start address sps3s://myWebAppUrl and run a crawl for that content source first. Причина этого заключается в том, что после завершения обхода система поиска создаст список для стандартизации имен людей.The reason for doing this is that after the crawl finishes, the search system generates a list to standardize people's names. Таким образом, если имя пользователя имеет различные формы в одном наборе результатов поиска, все результаты для этого человека отображаются в одной группе (которая называется блоком результатов).This is so that when a person's name has different forms in one set of search results, all results for that person are displayed in a single group (known as a result block). Например, для поискового запроса "Энн Веилер" все документы, созданные Энн Веилер или. Веилер или alias Аннев, могут отображаться в блоке результатов, помеченном как "документы Энн Веилер".For example, for the search query "Anne Weiler", all documents authored by Anne Weiler or A. Weiler or alias AnneW can be displayed in a result block that is labeled "Documents by Anne Weiler". Аналогично, все документы, созданные какими-либо из этих удостоверений, могут отображаться под заголовком "Энн Веилер" в панели уточнения, если слово "Автор" является одной из категорий.Similarly, all documents authored by any of those identities can be displayed under the heading "Anne Weiler" in the refinement panel if "Author" is one of the categories there.

Обход профилей пользователей, а затем обход сайтов SharePoint ServerTo crawl user profiles and then crawl SharePoint Server sites

  1. Убедитесь, что учетной записи пользователя, с помощью которой выполняется эта процедура, назначены права администратора приложения службы поиска, которое требуется настроить.Verify that the user account that performs this procedure is an administrator for the Search service application that you want to configure.

  2. Следуйте инструкциям в статье развертывание поиска людей в SharePoint Server.Follow the instructions in Deploy people search in SharePoint Server. В рамках этих инструкций выполните указанные ниже действия.As part of those instructions, you do the following:

  • Create a content source that is only for crawling user profiles (the profile store).Create a content source that is only for crawling user profiles (the profile store). You might give that content source a name such as People.You might give that content source a name such as People. В новом источнике содержимого в разделе начальные адреса введите sps3s://мивебаппурл, где мивебаппурл — это URL-адрес узла личных сайтов.In the new content source, in the Start Addresses section, type sps3s:// myWebAppUrl, where myWebAppUrl is the URL of the My Site host.

  • Начните обход контента для источника контента Люди, который вы только что создали.Start a crawl for the People content source that you just created.

  • Удалите начальный адрес sps3s://Мивебаппурл из предварительно настроенного источника контента Локальные сайты SharePoint.Delete the start address sps3s://myWebAppUrl from the preconfigured content source Local SharePoint sites.

  1. Подождите около двух часов, пока не завершится обход контента для источника Люди.Wait about two hours after the crawl for the People content source finishes.

  2. Начните первый полный обход контента для источника Локальные сайты SharePoint.Start the first full crawl for the content source Local SharePoint sites.

Использование непрерывных обходов для обеспечения актуальности результатов поискаUse continuous crawls to help ensure that search results are fresh

Включить непрерывное сканирование — это опция расписания обхода, которую можно выбрать при добавлении или редактировании источника контента с типом Сайты SharePoint.Enable continuous crawls is a crawl schedule option that you can select when you add or edit a content source of type SharePoint Sites. При непрерывном обходе сканируется контент, который был добавлен, изменен или удален после последнего обхода.A continuous crawl crawls content that was added, changed, or deleted since the last crawl. Непрерывный обход запускается с предварительно заданным интервалом.A continuous crawl starts at predefined time intervals. Интервал по умолчанию равен 15 минутам, но вы можете настроить непрерывные обходы с использованием Microsoft PowerShell с более короткими интервалами.The default interval is every 15 minutes, but you can set continuous crawls to occur at shorter intervals by using Microsoft PowerShell. Так как непрерывные обходы происходят часто, они обеспечивают актуальность индексов поиска, даже для содержимого SharePoint Server, которое часто обновляется.Because continuous crawls occur so often, they help ensure search-index freshness, even for SharePoint Server content that is frequently updated. Кроме того, несмотря на то, что добавочный или полный обход задерживается несколькими попыток обхода, которые возвращают ошибку для определенного элемента, непрерывный обход может обходить другой контент и относить актуальность индекса, так как непрерывный обход не обрабатывается или повторно не обрабатывается. элементы, которые многократно возвращают ошибки.Also, while an incremental or full crawl is delayed by multiple crawl attempts that are returning an error for a particular item, a continuous crawl can be crawling other content and contributing to index freshness, because a continuous crawl doesn't process or retry items that repeatedly return errors. Такие ошибки повторно выполняются во время добавочного обхода контента, который автоматически запускается каждые четыре часа для источников контента с включенным непрерывным обходом контента.Such errors are retried during a "clean-up" incremental crawl, which automatically runs every four hours for content sources that have continuous crawl enabled. Элементы, которые продолжают возвращать ошибки во время добавочного обхода контента, будут повторены во время последующих добавочных обходов, но не будут получать непрерывные обходы, пока ошибки не будут устранены.Items that continue to return errors during the incremental crawl will be retried during future incremental crawls, but will not be picked up by the continuous crawls until the errors are resolved.

Отдельная операция непрерывного обхода контента обрабатывает все источники контента в приложении-службе поиска, для которых включен непрерывный обход.A single continuous crawl includes all content sources in a Search service application for which continuous crawls are enabled. Аналогично, интервал при непрерывном обходе применяется ко всем источникам контента в приложении-службе поиска, для которых включен непрерывный обход.Similarly, the continuous crawl interval applies to all content sources in the Search service application for which continuous crawls are enabled. Дополнительные сведения см в разделе Управление непрерывным обходом контента в SharePoint Server.For more information, see Manage continuous crawls in SharePoint Server.

Непрерывный обход контента увеличивает нагрузку на программу-обходчик и цели обхода. Планируйте и развертывайте архитектуру с учетом увеличенного потребления ресурсов. Рекомендуем настроить один или несколько интерфейсных веб-серверов в качестве выделенных целей для обхода каждого большого источника контента. Дополнительные сведения см. в статье Управление нагрузкой при обходе (SharePoint Server 2010).Continuous crawls increase the load on the crawler and on crawl targets. Make sure that you plan and scale out accordingly for this increased consumption of resources. For each large content source for which you enable continuous crawls, we recommend that you configure one or more front-end web servers as dedicated targets for crawling. For more information, see Manage crawl load (SharePoint Server 2010).

Использование правил обхода для исключения нерелевантного контента при обходеUse crawl rules to exclude irrelevant content from being crawled

Так как при обходе контента потребляются ресурсы и полоса пропускания, возможно, при первом развертывании следует обойти небольшой объем релевантного контента, вместо того чтобы обходить большой объем контента, некоторая часть которого может быть нерелевантна. Чтобы ограничить количество обходимого контента, вы можете создать следующие правила обхода:Because crawling consumes resources and bandwidth, during initial deployment it might be better to crawl a small amount of content that you know is relevant, instead of crawling a larger amount of content, some of which might not be relevant. To limit how much content that you crawl, you can create crawl rules for the following reasons:

  • исключение из обхода нерелевантного контента путем исключения одного или нескольких URL-адресов;To avoid crawling irrelevant content by excluding one or more URLs.

  • обход ссылок на URL-адрес вместо обхода самого URL-адреса (это пригодится для сайтов, которые не содержат релевантный контент, но имеют ссылки на него).To crawl links on a URL without crawling the URL itself. This is useful for sites that do not contain relevant content but have links to relevant content.

По умолчанию программа-обходчик не переходит по сложным URL-адресам (то есть URL-адресам, содержащим знак вопроса, за которым следуют дополнительные параметры, например http://contoso/page.aspx?x=y. Если вы разрешите программе-обходчику переход по сложным URL-адресам, может быть собрано намного больше URL-адресов, чем ожидается или необходимо. Это может привести к сбору ненужных ссылок, заполнению базы данных обхода избыточными ссылками и созданию необоснованно большого индекса.By default, the crawler will not follow complex URLs, which are URLs that contain a question mark followed by additional parameters — for example, http://contoso/page.aspx?x=y. If you enable the crawler to follow complex URLs, this can cause the crawler to gather many more URLs than is expected or appropriate. This can cause the crawler to gather unnecessary links, fill the crawl database with redundant links, and result in an index that is unnecessarily large.

Эти меры помогут сократить использование серверных ресурсов и сетевого трафика, а также повысить релевантность результатов поиска.These measures can help reduce the use of server resources and network traffic, and can increase the relevance of search results. После первоначального развертывания можно проверить журналы запросов и обхода контента и при необходимости скорректировать источники контента и правила обхода, чтобы включить в обход больше контента.After the initial deployment, you can review the query and crawl logs and adjust content sources and crawl rules to include more content if it is necessary. Дополнительные сведения см в разделе Manage Rule обхода в SharePoint Server.For more information, see Manage crawl rules in SharePoint Server.

Обход зоны по умолчанию веб-приложений SharePoint ServerCrawl the default zone of SharePoint Server web applications

Когда вы выполняете обход зоны по умолчанию веб-приложения SharePoint Server, обработчик запросов автоматически сопоставляет и возвращает URL-адреса результатов поиска, чтобы они были относительными для зоны сопоставления альтернативного доступа (альтернативного доступа), из которой выполняются запросы.When you crawl the default zone of a SharePoint Server web application, the query processor automatically maps and returns search-result URLs so that they are relative to the alternate access mapping (AAM) zone from which queries are performed. Это позволяет пользователям легко просматривать и открывать результаты поиска.This makes it possible for users to readily view and open search results.

Но если вы выполняете обход зоны веб-приложения, которая не является зоной по умолчанию, обработчик запросов не сопоставляет URL-адреса результатов поиска (то есть их релевантность зоне альтернативного сопоставления доступа, из которой выполняются запросы, не обеспечивается). Вместо этого URL-адреса результатов поиска будут относиться к зоне обхода, не являющейся зоной по умолчанию. В связи с этим у пользователей могут возникнуть сложности с просмотром или открытием результатов поиска.However, if you crawl a zone of a web application other than the default zone, the query processor does not map search-result URLs so that they are relative to the AAM zone from which queries are performed. Instead, search-result URLS will be relative to the non-default zone that was crawled. Because of this, users might not readily be able to view or open search results.

Предположим, имеются следующие сопоставления для альтернативного доступа для веб-приложения с именем WebApp1:For example, assume that you have the following AAMs for a web application named WebApp1:

По умолчаниюDefault Общедоступный URL-адресPublic URL Поставщик проверки подлинностиAuthentication provider
По умолчаниюDefault https://contoso Проверка подлинности Windows: NTLMWindows authentication: NTLM
ЭкстрасетьExtranet https://fabrikam Проверка подлинности на основе формForms-based authentication
ИнтрасетьIntranet http://fabrikam Проверка подлинности Windows: NTLMWindows authentication: NTLM

Теперь допустим, что вы обходите зону по умолчанию https://contoso. Когда пользователи выполняют запросы из https://contoso/searchresults.aspx, URL-адреса результатов из WebApp1 будут относиться к https://contoso и поэтому будут иметь формат https://contoso/ путь/ результат.aspx.Now, say that you crawl the default zone, https://contoso. When users perform queries from https://contoso/searchresults.aspx, URLs of results from WebApp1 will all be relative to https://contoso, and therefore will be of the form https://contoso/ path/ result.aspx.

Аналогично, когда запросы отправляются из зоны экстрасети (в данном случае: https://fabrikam/searchresults.aspx, результаты из WebApp1 будут относиться к https://fabrikam и поэтому будут иметь формат https://fabrikam/ путь/ результат.aspx.Similarly, when queries originate from the Extranet zone—in this case, https://fabrikam/searchresults.aspx—results from WebApp1 will all be relative to https://fabrikam, and therefore will be of the form https://fabrikam/ path/ result.aspx.

Так как запрос и URL-адрес результатов поиска в обоих предыдущих случаях находятся в одной и той же зоне, пользователи смогут легко просматривать и открывать результаты поиска без необходимости переходить на другой контекст безопасности другой зоны.In both of the previous cases, because of the zone consistency between the query location and the search-result URLs, users will readily be able to view and open search results, without having to change to the different security context of a different zone.

А теперь допустим, что вы обходите зону, которая не является зоной по умолчанию, например зону интрасети http://fabrikam. В таком случае для запросов из любой зоны URL-адреса результатов из WebApp1 всегда будут относиться к зоне обхода, которая не является зоной по умолчанию. То есть запрос из https://contoso/searchresults.aspx, https://fabrikam/searchresults.aspx или http://fabrikam/searchresults.aspx будет возвращать URL-адреса результатов поиска, которые начинаются с зоны обхода, не являющейся зоной по умолчанию, и поэтому будут иметь формат http://fabrikam/ путь/ результат.aspx. Это может привести к неожиданному или проблемному поведению.However, now instead say that you crawl a non-default zone such as the Intranet zone, http://fabrikam. In this case, for queries from any zone, URLs of results from WebApp1 will always be relative to the non-default zone that was crawled. That is, a query from https://contoso/searchresults.aspx, https://fabrikam/searchresults.aspx, or http://fabrikam/searchresults.aspx will yield search-result URLs that begin with the non-default zone that was crawled, and therefore will be of the form http://fabrikam/ path/ result.aspx. This can cause unexpected or problematic behavior such as the following:

  • При попытке открыть результаты поиска пользователям может быть предложено ввести учетные данные, которых у них нет. Например, у пользователей, которые проходят проверку подлинности на основе форм в зоне экстрасети, может не быть учетных данных для проверки подлинности Windows.When users try to open search results, they might be prompted for credentials that they don't have. For example, forms-based authenticated users in the Extranet zone might not have Windows authentication credentials.

  • Результаты из WebApp1 будут использовать HTTP, но пользователи могут выполнять поиск из зоны экстрасети в https://fabrikam/searchresults.aspx. Это может приводить к проблемам с безопасностью, так как результаты не будут использовать SSL-шифрование.The results from WebApp1 will use HTTP, but users might be searching from the Extranet zone at https://fabrikam/searchresults.aspx. This might have security implications because the results will not use secure sockets layer (SSL) encryption.

  • Уточнения могут быть неправильно отфильтрованы, потому что фильтрация происходит на общедоступном URL-адресе для зоны по умолчанию, а не на URL-адресе, обход которого выполнялся. Это объясняется тем, что основанные на URL-адресе свойства индекса будут относиться к обходимому URL-адресу, который не является URL-адресом по умолчанию.Refinements might not filter correctly, because they filter on the public URL for the default zone instead of the URL that was crawled. This is because URL-based properties in the index will be relative to the non-default URL that was crawled.

Снижение последствий обхода контента в целевых объектах обхода SharePoint ServerReduce the effect of crawling on SharePoint Server crawl targets

Вы можете уменьшить результат обхода на целевых объектах обхода SharePoint Server (то есть на интерфейсных веб-серверах SharePoint Server), выполнив следующие действия:You can reduce the effect of crawling on SharePoint Server crawl targets (that is, SharePoint Server front-end web servers) by doing the following:

  • Для небольшой среды SharePoint Server Перенаправьте весь трафик обхода на один интерфейсный веб-сервер SharePoint Server.For a small SharePoint Server environment, redirect all crawl traffic to a single SharePoint Server front-end web server. В большой среде перенаправляйте весь трафик обхода контента на определенную группу интерфейсных веб-серверов.For a large environment, redirect all crawl traffic to a specific group of front-end web servers. Это не позволит программе-обходчику использовать те же ресурсы, которые используются для обработки и показа веб-страниц и контента активным пользователям.This prevents the crawler from using the same resources that are being used to render and serve web pages and content to active users.

  • Ограничьте использование базы данных поиска в Microsoft SQL Server, чтобы предотвратить использование программой-обходчиком общих дисковых и процессорных ресурсов SQL Server при обходе.Limit search database usage in Microsoft SQL Server to prevent the crawler from using shared SQL Server disk and processor resources during a crawl.

Дополнительные сведения см. в статье Управление нагрузкой при обходе (SharePoint Server 2010).For more information, see Manage crawl load (SharePoint Server 2010).

Использование правил воздействия программы-обходчика для ограничения воздействия обходаUsing crawler impact rules to limit the effect of crawling

Чтобы ограничить воздействие программы-обходчика, можно также создать правила воздействия программы-обходчика, которые доступны на странице "Имя_приложения-службы_поиска: администрирование поиска". Правило воздействия программы-обходчика определяет частоту запросов контента программой-обходчиком из начального адреса иди диапазона начальных адресов. В частности, правило воздействия программы-обходчика за один раз запрашивает определенное количество документов из URL-адреса без перерыва между запросами или запрашивает из URL-адреса по одному документу за раз и ожидает определенное время между запросами. Каждое правило воздействия программы-обходчика применяется ко всем компонентам обхода контента.To limit crawler impact, you can also create crawler impact rules, which are available from the Search_service_application_name: Search Administration page. A crawler impact rule specifies the rate at which the crawler requests content from a start address or range of start addresses. Specifically, a crawler impact rule either requests a specified number of documents at a time from a URL without waiting between requests, or it requests one document at a time from the URL and waits a specified time between requests. Each crawler impact rule applies to all crawl components.

Для серверов в своей организации вы можете настроить правила воздействия программы-обходчика на основе известных данных о производительности и емкости сервера. Но это может быть невозможно для внешних сайтов. Поэтому вы можете неумышленно использовать слишком много ресурсов на внешних серверах, запрашивая слишком много контента или делая это слишком часто. В связи с этим администраторы таких внешних серверов могут ограничить доступ к серверу, из-за чего вам будет сложно или невозможно выполнять обход таких хранилищ. Поэтому задавайте правила воздействия на программу-обходчик таким образом, чтобы они наименьшим образом влияли на внешние серверы, но при этом по-прежнему обеспечивали обход достаточного количества контента с достаточной частотой, чтобы обеспечивать необходимую актуальность индекса.For servers in your organization, you can set crawler impact rules based on known server performance and capacity. However, this might not be possible for external sites. Therefore, you might unintentionally use too many resources on external servers by requesting too much content or requesting content too frequently. This could cause administrators of those external servers to limit server access so that it becomes difficult or impossible for you to crawl those repositories. Therefore, set crawler impact rules to have as little effect on external servers as possible while you still crawl enough content frequently enough to make sure that that the freshness of the index meets your requirements.

Использование разрешений для групп Active Directory вместо отдельных пользователейUse Active Directory groups instead of individual users for permissions

Возможность пользователя или группы выполнять различные действия на сайте определяется назначенным уровнем разрешений.The ability of a user or group to perform various activities on a site is determined by the permission level that you assign. При добавлении или удалении пользователей по отдельности для разрешений сайта или при использовании группы SharePoint Server для указания разрешений сайта и изменения членства в группе программа-обходчик должна выполнить "обход только для безопасности", который обновляет все затронутые элементы в Индекс поиска, чтобы отразить изменение.If you add or remove users individually for site permissions, or if you use a SharePoint Server group to specify site permissions and you change the membership of the group, the crawler must perform a "security-only crawl", which updates all affected items in the search index to reflect the change. Аналогично, добавление или обновление политики веб-приложений с разными пользователями или группами SharePoint Server приведет к обходу контента всего контента, охваченного этой политикой.Similarly, adding or updating web application policy with different users or SharePoint Server groups will trigger a crawl of all content covered by that policy. Это повышает нагрузку обхода контента и может уменьшить актуальность результатов поиска.This increases crawl load and can reduce search-results freshness. Поэтому для указания разрешений для сайта лучше использовать группы доменных служб Active Directory (AD DS), потому что в таком случае программе-обходчику не нужно обновлять затронутые элементы в индексе поиска.Therefore, to specify site permissions, it is best to use Active Directory Domain Services (AD DS) groups, because this does not require the crawler to update the affected items in the search index.

Добавление второго компонента обхода контента для обеспечения отказоустойчивостиAdd a second crawl component to provide fault tolerance

При создании приложения службы поиска топология поиска по умолчанию содержит один компонент обхода.When you create a Search service application, the default search topology includes one crawl component. Он извлекает элементы хранилищ контента, загружает элементы на сервер, на котором размещен компонент обхода, передает элементы и связанные метаданные компоненту обработки контента и добавляет касающуюся обхода информацию в связанные базы данных обхода.A crawl component retrieves items from content repositories, downloads the items to the server that hosts the crawl component, passes the items and associated metadata to a content processing component, and adds crawl-related information to associated crawl databases. Вы можете добавить второй компонент обхода контента для обеспечения отказоустойчивости.You can add a second crawl component to provide fault tolerance. Если один компонент обхода контента становится недоступным, оставшийся компонент берет на себя все выполнение обхода.If one crawl component becomes unavailable, the remaining crawl component will take over all of the crawling. Для большинства ферм SharePoint Server достаточно всего двух компонентов обхода контента.For most SharePoint Server farms, a total of two crawl components is sufficient.

Дополнительные сведения см. в следующих статьях:For more information, see the following articles:

Управление ресурсами среды для повышения производительности обхода контентаManage environment resources to improve crawl performance

Существует несколько факторов, которые могут ухудшать производительность программы-обходчика при сканировании контента, его загрузке на сервер обхода (сервер, на котором размещен компонент обхода) и передаче в компоненты обработки контента. Чтобы повысить производительность обхода контента, выполните следующее:As the crawler crawls content, downloads the content to the crawl server (the server that hosts the crawl component), and feeds the content to content processing components, several factors can adversely affect performance. To improve crawl performance, you can do the following:

Возможное ограничение производительностиTo address this potential performance bottleneck Решение, которое нужно применитьImplement this solution
Длительное время отклика от серверов для обходаSlow response time from crawled servers Добавьте дополнительные ЦП и ОЗУ и более быстрый дисковый ввод-выводProvide more CPU and RAM and faster disk I/O
Малая полоса пропускания сетиLow network bandwidth На каждом сервере обхода контента установите один или два сетевых адаптера со скоростью один гигабит в секундуInstall one or two one-gigabit-per-second network adapters on each crawl server
Обработка контентаContent processing Добавьте дополнительные компоненты обработки контента и дополнительные ресурсы ЦП для каждого из нихProvide more content processing components, and more CPU resources for each content processing component
Медленная обработка компонентами индексаSlow processing by the index components Добавьте ресурсы ввода-вывода для серверов, на которых размещены компоненты индексаAdd I/O resources for servers that host index components

Дополнительные сведения см. в следующих источниках.For more information, see the following resources:

Убедитесь, что перед изменением топологии поиска отсутствуют активные обходыMake sure no crawls are active before you change the search topology

Мы рекомендуем убедиться, что не выполняются обходы, прежде чем инициировать изменение топологии поиска. В противном случае в процессе изменения топологии возможны сложности.We recommend that you confirm that no crawls are in progress before you initiate a change to the search topology. Otherwise, it is possible that the topology change will not occur smoothly.

При необходимости можно вручную остановить или приостановить полный или добавочный обход контента, а также отключить непрерывный обход. Подробнее см. в статьях:If necessary, you can manually pause or stop full or incremental crawls, and you can disable continuous crawls. For more information, see the following articles:

Примечание

Приостановка обхода контента имеет недостаток — ссылки на компоненты обхода контента могут оставаться в таблице MSSCrawlComponentsState в базе данных администрирования поиска. Из-за этого может возникнуть проблема при удалении каких-либо компонентов обхода (например, если вы захотите удалить из фермы сервер, на котором размещены такие компоненты). Но когда вы останавливаете обход контента, ссылки на компоненты обхода в таблице MSSCrawlComponentsState удаляются. Поэтому чтобы удалить компоненты обхода контента, лучше останавливать, а не приостанавливать обход.Pausing a crawl has the disadvantage that references to crawl components can remain in the MSSCrawlComponentsState table in the search administration database. This can cause a problem if you want to remove any crawl components (say, because you want to remove a server that hosts those components from the farm). However, when you stop a crawl, references to crawl components in the MSSCrawlComponentsState table are deleted. Therefore, if you want to remove crawl components, it is better to stop crawls than to pause crawls.

To confirm that no crawls are in progress, on the Search_service_application_name: Manage Content Sources page, make sure that the value in the Status field for each content source is either Idle or Paused. (When a crawl is completed, or when you stop a crawl, the value in the Status field for the content source will change to Idle.)To confirm that no crawls are in progress, on the Search_service_application_name: Manage Content Sources page, make sure that the value in the Status field for each content source is either Idle or Paused. (When a crawl is completed, or when you stop a crawl, the value in the Status field for the content source will change to Idle.)

Удаление компонентов обхода контента из узла обхода перед удалением узла из фермыRemove crawl components from a crawl host before you remove the host from a farm

В случае удаления из фермы сервера, на котором размещен компонент обхода контента, система поиска может быть не в состоянии обходить контент. Поэтому прежде чем удалять узел обхода из фермы, настоятельно рекомендуется выполнить следующее.When a server hosts a crawl component, removing the server from the farm can make it impossible for the Search system to crawl content. Therefore, before you remove a crawl host from a farm, we strongly recommend that you do the following:

  1. Убедитесь в том, что активные обходы отсутствуют.Make sure that no crawls are active.

    Подробнее см. в предыдущем разделе Убедитесь, что перед изменением топологии поиска отсутствуют активные обходы.For more information, see the previous section, Make sure no crawls are active before you change the search topology.

  2. Удалите или переместите компоненты обхода контента, размещенные на этом узле.Remove or relocate crawl components that are on that host.

Дополнительные сведения см. в следующих источниках:For more information, see the following resources:

Проверка функциональности обхода контента и запросов после обновления или изменения конфигурации обходаTest crawl and query functionality after you change the crawl configuration or apply updates

Мы рекомендуем проверять функциональность обхода контента и запросов на ферме серверов после изменения конфигурации и применения обновлений. Ниже приведен пример простой процедуры для выполнения такой проверки.We recommend that you test the crawl and query functionality in the server farm after you make configuration changes or apply updates. The following procedure is an example of an easy way to perform such a test.

Тестирование функций обхода контента и запросовTo test the crawl and query functionality

  1. Убедитесь, что учетной записи пользователя, с помощью которой выполняется эта процедура, назначены права администратора приложения службы поиска, которое требуется настроить.Verify that the user account that performs this procedure is an administrator for the Search service application that you want to configure.

  2. Создайте источник контента, который вы будете временно использовать только для этой проверки.Create a content source that you will use temporarily just for this test.

    В новом источнике контента в разделе Начальные адреса в поле Введите ниже начальные адреса (по одному в строке) укажите начальный адрес, содержащий несколько элементов, еще не добавленных в индекс (например, несколько TXT-файлов, расположенных в файловом ресурсе).In the new content source, in the Start Addresses section, in the Type start addresses below (one per line) box, specify a start address that contains several items that are not already in the index — for example, several TXT files that are on a file share. Дополнительные сведения см. в статье Добавление, изменение и удаление источника контента в SharePoint Server.For more information, see Add, edit, or delete a content source in SharePoint Server.

  3. Начните полный обход этого источника контента.Start a full crawl for that content source.

    Дополнительные сведения см. в статье Start, pause, resume, or stop a crawl in SharePoint Server.For more information, see Start, pause, resume, or stop a crawl in SharePoint Server. When the crawl is complete, on the Search_service_application_name: Manage Content Sources page, the value in the Status column for the content source will be Idle.When the crawl is complete, on the Search_service_application_name: Manage Content Sources page, the value in the Status column for the content source will be Idle. (To update the Status column, refresh the Manage Content Sources page by clicking Refresh.)(To update the Status column, refresh the Manage Content Sources page by clicking Refresh.)

  4. По завершении обхода контента перейдите в центр поиска и выполните поисковые запросы, чтобы найти эти файлы.When the crawl is complete, go to the Search Center and perform search queries to find those files.

    Если в вашем развертывании еще нет центра поиска, ознакомьтесь со статьей Создание сайта центра поиска в SharePoint Server.If your deployment does not already have a Search Center, see Create a Search Center site in SharePoint Server.

  5. После завершения тестирования удалите временный источник контента.After you finish testing, delete the temporary content source.

    Это приведет к удалению из индекса поиска элементов, указанных этим источником контента, поэтому они не будут отображаться в результатах поиска, после того как вы завершите тестирование.This removes the items specified by that content source from the search index so that they do not appear in search results after you finish testing.

Использование отчетов о работоспособности и журналов обхода контента для диагностики проблемUse the crawl log and crawl-health reports to diagnose problems

Журнал обхода контента отслеживает данные о состоянии контента, для которого выполнен обход. Журнал включает в себя представления для источников контента, узлов, ошибок, баз данных, URL-адресов и истории. Например, с помощью этого журнала можно определить, когда был выполнен последний успешный обход для определенного источника контента, добавлен ли просканированный контент в индекс, исключен ли он в связи с правилом обхода и произошел ли сбой обхода контента из-за ошибки.The crawl log tracks information about the status of crawled content. The log includes views for content sources, hosts, errors, databases, URLs, and history. For example, you can use this log to determine the time of the last successful crawl for a content source, whether crawled content was successfully added to the index, whether it was excluded because of a crawl rule, or whether crawling failed because of an error.

Отчеты о работоспособности обхода контента содержат подробную информацию о скорости, задержках и актуальности обхода контента, а также обработке контента, загрузке ЦП и памяти, непрерывных обходах и очереди обхода.Crawl-health reports provide detailed information about crawl rate, crawl latency, crawl freshness, content processing, CPU and memory load, continuous crawls, and the crawl queue.

С помощью отчетов о работоспособности и журнала обхода контента можно диагностировать проблемы с функциями поиска. Диагностические сведения помогут определить, стоит ли настраивать элементы, например источники контента, правила обхода, правила воздействия программы-обходчика, компоненты обхода и базы данных обхода.You can use the crawl log and crawl-health reports to diagnose problems with the search experience. The diagnostic information can help you determine whether it would be helpful to adjust elements such as content sources, crawl rules, crawler impact rules, crawl components, and crawl databases.

Дополнительные сведения см. в статье Просмотр диагностики поиска в SharePoint Server.For more information, see View search diagnostics in SharePoint Server.