Usar el análisis del sitio para rastrear un sitio web

por Ruslan Yakushev

El análisis del sitio de IIS es una herramienta dentro del kit de herramientas de optimización del motor de búsqueda de IIS que se puede usar para analizar sitios web con el fin de optimizar el contenido, la estructura y las direcciones URL del sitio para los rastreadores del motor de búsqueda. Además, puede usar la herramienta para detectar y corregir problemas comunes en el contenido del sitio que afectan negativamente a la experiencia del usuario del sitio. La herramienta de análisis del sitio de IIS incluye un rastreador web que rastrea todos los recursos y vínculos del sitio disponibles públicamente y descarga el contenido que se usará para el análisis del sitio.

Rastrear un sitio web

El primer paso para analizar un sitio web es rastrear todos los recursos y direcciones URL que expone públicamente el sitio. Esto es lo que hace la herramienta Análisis del sitio de IIS cuando se crea un nuevo análisis del sitio. Para que la herramienta Análisis del sitio de IIS rastree un sitio web y recopile datos para el análisis, siga estos pasos:

  1. Inicie la herramienta de SEO; para ello, vaya a Inicio > Archivos de programa > Extensiones de IIS 7.0 y haga clic en el icono de Optimización del motor de búsqueda (SEO).

  2. Seleccione el nodo de servidor en el panel Conexiones. La página principal de SEO se abrirá automáticamente.

  3. Haga clic en el vínculo de tarea "Crear un nuevo análisis" en la sección Análisis del sitio.
    Screenshot of the Search Engine Optimization Toolkit startup screen.

  4. En el cuadro de diálogo Nuevo análisis, escriba un nombre que identifique de forma única el informe del análisis. Introduzca también la URL en la que debe comenzar el rastreador.
    Screenshot of the S E O Toolkit Site Analysis page. The New Analysis dialog box is open.
    Tenga en cuenta que, dado que el nodo de servidor está seleccionado en el panel de Conexiones (no hemos seleccionado un sitio web específico en el servidor), es posible rastrear cualquier sitio web que sea accesible públicamente en Internet. Consulte la sección "Configuración del rastreador web" para obtener más detalles sobre el cuadro de diálogo "Nuevo análisis".

  5. Una vez especificados todos los parámetros, haga clic en Aceptar para iniciar el análisis:
    Screenshot of the New Analysis dialog box displaying the results of the analysis.
    Los dos números notificados durante el análisis son:

    • Vínculos procesados: este es el número total de vínculos rastreados y descargados por el rastreador web.
    • Total de vínculos: este es el número total de vínculos encontrados al rastrear el sitio web.

Nota:

que el rastreador web siempre se ejecuta en un equipo cliente. Si se conecta a un servidor IIS remoto e inicia un nuevo análisis, el rastreador web se hospedará en el proceso del Administrador de IIS (InetMgr.exe) en el equipo local conectado al servidor IIS remoto. Todos los datos recopilados y el contenido web almacenado en caché se mantienen en el sistema de archivos de cliente local.

Una vez rastreado y analizado el sitio web, se mostrará la vista de resumen del informe de análisis del sitio. Consulte el artículo "Usar los informes de análisis del sitio" para obtener más detalles sobre cómo analizar el sitio para problemas específicos de SEO y de contenido.

Configuración del rastreador web

Otros parámetros que se pueden especificar al iniciar un nuevo análisis son:

  • Número máximo de vínculos: esta configuración controla cuántos vínculos únicos se procesarán y descargarán de un sitio web durante un rastreo. Un vínculo es cualquier dirección URL que se use dentro del marcado de una página, incluidos hipervínculos, referencias a archivos de imagen, archivos css y archivos javascript. Aumentar este número aumentará el tamaño del archivo de informes y hará que el proceso de rastreo se ejecute durante más tiempo.
  • Tamaño máximo de descarga por vínculo: esta configuración controla cuántos kilobytes de contenido se descargarán por vínculo. Aumentar este número aumentará el tamaño del contenido almacenado en caché por Análisis del sitio en el sistema de archivos local.
  • Ignorar el atributo "nofollow": el atributo "nofollow" y la etiqueta meta "nofollow" se usan para indicar a los rastreadores del motor de búsqueda que no sigan algunos o todos los hipervínculos de la página. Se trata de un medio de protección contra correo no deseado en los comentarios del blog. Si las páginas del sitio usan este atributo, los hipervínculos de esas páginas no se procesarán ni analizarán durante el análisis del sitio. Tenga en cuenta que los vínculos a recursos como imágenes, css y archivos javascript se seguirán procesando. Si es necesario analizar incluso los hipervínculos que usan este atributo, use esta configuración para omitir los atributos "nofollow" y las etiquetas meta.
  • Ignorar la etiqueta meta "noindex": la etiqueta "noindex" se usa para indicar a los rastreadores del motor de búsqueda que no indexen el contenido de la página. Si las páginas del sitio usan esta etiqueta meta, no se buscará ninguna infracción en el contenido de esas páginas. Si es necesario analizar incluso las páginas que usan este atributo, use esta configuración para omitir la etiqueta meta "noindex".
  • Vínculos externos: puede usar esta lista desplegable cuando el sitio web tenga subdominios o cuando desee ejecutar un análisis en un directorio determinado dentro de un sitio. Esta configuración controla si los subdominios o subdirectorios deben tratarse como vínculos externos o internos.

Además, se pueden configurar las siguientes opciones genéricas para el rastreador web seleccionando Editar FeatureSettings en el panel Acciones:

  • Número máximo de solicitudes simultáneas: esta configuración controla cuántas solicitudes simultáneas realizará el rastreador web.
  • Directorio de informes: especifica el directorio en el sistema de archivos local donde se almacenan todos los datos rastreados y el contenido del sitio web almacenado en caché.

Bloquear el rastreador web de Análisis del sitio de IIS

Todas las solicitudes HTTP realizadas por el rastreador web de Análisis del sitio de IIS tienen un encabezado HTTP "user-agent" establecido en:

"iisbot/1.0 (+http://www.iis.net/iisbot.html)"

El rastreador web de Análisis del sitio de IIS es totalmente compatible con el protocolo de exclusión de robots. Esto significa que puede usar el archivo Robots.txt para evitar que el rastreador web de análisis de sitio de IIS rastree el sitio web. Es posible que quiera usarlo para evitar que otras personas ejecuten análisis del sitio de IIS en los sitios web.

Para evitar que el rastreador de Análisis del sitio de IIS rastree un sitio web, agregue las siguientes líneas al final del archivo Robots.txt que se encuentra en el directorio raíz del sitio:

User-Agent: iisbot
Disallow: /

Resumen

Ahora ha configurado correctamente la herramienta Análisis del sitio de IIS para rastrear un sitio web y recopilar los datos sobre el contenido y la estructura del sitio. Para obtener información sobre cómo analizar los datos recopilados mediante informes de análisis del sitio, consulte "Usar informes de Análisis del sitio".