Управление файлами Robots.txt и sitemap

Руслан Якушев

Набор средств оптимизации поисковой системы IIS включает функцию исключения роботов, которую можно использовать для управления содержимым файла Robots.txt веб-сайта, а также функцию "Карты сайта" и "Индексы сайта", которую можно использовать для управления картами сайта. В этом пошаговом руководстве объясняется, как и почему использовать эти функции.

Общие сведения

Обходчики поисковых систем будут тратить ограниченное время и ресурсы на веб-сайте. Поэтому очень важно сделать следующее:

  1. Запретить обходчикам индексировать содержимое, которое не важно или не должно отображаться на страницах результатов поиска.
  2. Укажите обходчики к содержимому, которое вы считаете наиболее важным для индексирования.

Существует два протокола, которые часто используются для выполнения этих задач: протокол исключения роботов и протокол Sitemaps.

Протокол исключения роботов используется для определения обходчиков поисковых систем, какие URL-адреса он не должен запрашивать при обходе веб-сайта. Инструкции по исключению помещаются в текстовый файл с именем Robots.txt, который находится в корне веб-сайта. Большинство обходчиков поисковой системы обычно ищут этот файл и следуйте инструкциям в нем.

Протокол Sitemaps используется для информирования обходчиков поисковых систем о URL-адресах, доступных для обхода на веб-сайте. Кроме того, карты сайта используются для предоставления дополнительных метаданных о URL-адресах сайта, таких как время последнего изменения, частота изменения, относительный приоритет и т. д. Поисковые системы могут использовать эти метаданные при индексировании веб-сайта.

Необходимые компоненты

1. Настройка веб-сайта или приложения

Для выполнения этого пошагового руководства вам потребуется веб-сайт IIS 7 или выше размещенного веб-сайта или веб-приложения, которое вы управляете. Если у вас его нет, его можно установить из коллекции веб-приложений Майкрософт. В этом пошаговом руководстве мы будем использовать популярное приложение для блогов DasBlog.

2. Анализ веб-сайта

После того как у вас есть веб-сайт или веб-приложение, вы можете проанализировать его, чтобы понять, как обычная поисковая система будет обходить его содержимое. Для этого выполните действия, описанные в статьях "Использование анализа сайтов для обхода веб-сайта" и "Использование отчетов анализа сайтов". При анализе вы, вероятно, заметите, что у вас есть определенные URL-адреса, доступные для обхода поисковых систем, но что нет реальных преимуществ при их обходе или индексировании. Например, страницы входа или страницы ресурсов не должны запрашиваться даже обходчиками поисковых систем. URL-адреса, подобные этим, должны быть скрыты от поисковых систем, добавив их в файл Robots.txt.

Управление файлом Robots.txt

Вы можете использовать функцию исключения роботов в набор средств IIS для создания файла Robots.txt, который сообщает поисковым системам, какие части веб-сайта не должны выполнять обход или индексироваться. Ниже описано, как использовать это средство.

  1. Откройте консоль управления IIS, введя INETMGR в меню .
  2. Перейдите на веб-сайт с помощью представления дерева слева (например, веб-сайт по умолчанию).
  3. Щелкните значок оптимизации поисковой системы в разделе "Управление":
    Снимок экрана: значки раздела
  4. На главной странице SEO щелкните ссылку "Добавить новое правило запрета" в разделе "Исключение роботов".
    Снимок экрана: исключение роботов в разделе оптимизации поисковой системы.

Добавление запрета и разрешения правил

Диалоговое окно "Добавление правил запрета" откроется автоматически:

Снимок экрана: диалоговое окно

Протокол исключения роботов использует директивы Allow и "Disallow" для информирования поисковых систем о путях обхода URL-адресов, которые могут быть обходиться и те, которые не могут. Эти директивы можно указать для всех поисковых систем или для определенных агентов пользователей, определяемых заголовком HTTP-агента пользователя. В диалоговом окне "Добавление правил запрета" можно указать, к какой поисковой системе применяется директива, введя пользовательский агент обходчика в поле "Робот (агент пользователя)".

Представление дерева пути URL-адресов используется для выбора URL-адресов, которые следует запретить. Можно выбрать один из нескольких вариантов при выборе путей URL-адресов с помощью раскрывающегося списка "Структура URL-адресов":

  • Физическое расположение — вы можете выбрать пути из макета физической файловой системы веб-сайта.
  • В разделе "Анализ сайта" (имя анализа) можно выбрать пути из структуры виртуального URL-адреса, обнаруженной при анализе сайта с помощью средства анализа сайтов IIS.
  • <Запуск нового анализа сайта...> — вы можете выполнить новый анализ сайта, чтобы получить структуру виртуального URL-адреса для веб-сайта, а затем выбрать пути URL-адресов.

После выполнения действий, описанных в разделе предварительных требований, вы получите доступ к анализу сайта. Выберите анализ в раскрывающемся списке, а затем проверка URL-адреса, которые должны быть скрыты от поисковых систем с помощью проверка boxes в представлении "ПУТИ URL-адресов":

Снимок экрана: диалоговое окно

После выбора всех каталогов и файлов, которые необходимо запретить, нажмите кнопку ОК. Вы увидите новые записи запрета в главном представлении функций:

Снимок экрана: окно исключения роботов. Запрещенные пути отображаются на главной панели.

Кроме того, Robots.txt файл для сайта будет обновлен (или создан, если он не существует). Его содержимое будет выглядеть примерно так:

User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/

Чтобы узнать, как работает Robots.txt, вернитесь к функции "Анализ сайта" и повторно запустите анализ сайта. На странице "Сводка отчетов" в категории "Ссылки " выберите "Ссылки заблокированы по Robots.txt". В этом отчете отображаются все ссылки, которые не были обходены, так как они были запрещены только что созданным файлом Robots.txt.

Снимок экрана: окно отчета о анализе сайта. Список заблокированных ссылок отображается на главной панели.

Управление файлами sitemap

Вы можете использовать функцию "Карты сайта" и "Индексы сайта" набор средств ДЛЯ создания карт сайта на веб-сайте для информирования поисковых систем о страницах, которые должны выполняться обходом и индексированием. Для этого выполните следующие шаги.

  1. Откройте диспетчер IIS, введя INETMGR в меню "Пуск ".
  2. Перейдите на веб-сайт с помощью представления дерева слева.
  3. Щелкните значок оптимизации поисковой системы в разделе "Управление":
    Снимок экрана: значок оптимизации поисковой системы.
  4. На главной странице SEO щелкните ссылку "Создать карту сайта" в разделе "Карты сайта" и "Индексы сайта".
    Снимок экрана: карты сайта и индексы сайта в разделе оптимизации поисковой системы.
  5. Диалоговое окно "Добавление карты сайта" откроется автоматически.
    Снимок экрана: окно
  6. Введите имя файла карты сайта и нажмите кнопку "ОК". Откроется диалоговое окно добавления URL-адресов .

Добавление URL-адресов в карту сайта

Диалоговое окно добавления URL-адресов выглядит следующим образом:

Снимок экрана: диалоговое окно

Файл Sitemap — это простой XML-файл, который перечисляет URL-адреса вместе с некоторыми метаданными, такими как частота изменений, дата последнего изменения и относительный приоритет. Диалоговое окно "Добавление URL-адресов" используется для добавления новых записей URL-адреса в xml-файл Sitemap. Каждый URL-адрес в карте сайта должен иметь полный формат URI (т. е. он должен включать префикс протокола и доменное имя). Поэтому сначала необходимо указать домен, который будет использоваться для URL-адресов, которые будут добавлены на карту сайта.

Представление дерева пути URL-адреса используется для выбора URL-адресов, которые следует добавить в карту сайта для индексирования. В раскрывающемся списке "Структура URL-адресов" можно выбрать один из нескольких вариантов:

  • Физическое расположение — вы можете выбрать URL-адреса из макета физической файловой системы веб-сайта.
  • В анализе сайтов (имя анализа) можно выбрать URL-адреса из структуры виртуального URL-адреса, обнаруженной при анализе сайта с помощью средства анализа сайтов.
  • <Запуск нового анализа сайта...> — вы можете выполнить анализ нового сайта, чтобы получить структуру виртуального URL-адреса для веб-сайта, а затем выбрать пути URL-адреса, которые нужно добавить для индексирования.

После выполнения действий в разделе предварительных требований вы получите доступ к анализу сайта. Выберите его из раскрывающегося списка, а затем проверка URL-адреса, которые необходимо добавить в карту сайта.

При необходимости измените параметры "Частота изменений", "Дата последнего изменения" и "Приоритет" и нажмите кнопку "ОК", чтобы добавить URL-адреса в карту сайта. Файл sitemap.xml будет обновлен (или создан, если он не существует), а его содержимое будет выглядеть следующим образом:

<urlset>
  <url>
    <loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
    <lastmod>2009-06-03T16:05:02</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
    <lastmod>2009-06-03T16:05:01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Добавление расположения карты сайта в файл Robots.txt

Теперь, когда вы создали карту сайта, вам потребуется сообщить поисковым системам, где он расположен, чтобы они могли начать использовать его. Самый простой способ сделать это — добавить URL-адрес расположения карты сайта в файл Robots.txt.

В функции "Карты сайта" и "Индексы сайта" выберите только что созданный файл сайта, а затем нажмите кнопку "Добавить к Robots.txt" в области "Действия ".

Снимок экрана: окно

Файл Robots.txt будет выглядеть следующим образом:

User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx

Sitemap: http://myblog/sitemap.xml

Регистрация карт сайта с помощью поисковых систем

Помимо добавления расположения карты сайта в файл Robots.txt рекомендуется отправить URL-адрес расположения карты сайта основным поисковым системам. Это позволит получить полезное состояние и статистику веб-сайта из средств веб-мастеров поисковой системы.

Итоги

В этом пошаговом руководстве вы узнали, как использовать функции "Исключения роботов" и "Карты сайта" и "Индексы сайта" набор средств оптимизации поисковых систем IIS для управления файлами Robots.txt и карты сайта на веб-сайте. Набор средств оптимизации поисковой системы IIS предоставляет интегрированный набор инструментов, которые помогут вам создать и проверить правильность файлов Robots.txt и карты сайта перед началом использования поисковых систем.