Posicionamiento en buscadores

Gran parte del éxito de un sitio web es proporcional al éxito que tiene la estrategia de indexación utilizada. Es decir, es crucial que los buscadores encuentren nuestra página, la recorran y la indexen. Sin nuestra intervención, esto sucederá "de forma natural", es decir, al cabo de un tiempo indeterminado los robots de búsqueda analizarán nuestro sitio y sistemáticamente navegarán a todos los enlaces que se encuentren. De este comportamiento se desprenden dos posibles problemas: el primero es que no tengamos nuestro sitio totalmente enlazado, quedando partes "ocultas" a los ojos del robot que recorrió las páginas. El segundo podríamos decir que es el problema inverso: hay enlaces en la página que realmente no enlazan a otras páginas y no querríamos que el indexado las reflejase (podría ser un botón de completar pago en una tienda, o enlaces en los comentarios).

Afortunadamente los gestores del sitio web disponen de dos recursos para solventar y optimizar estas dos cuestiones: robots.txt y sitemap.

El archivo /robots.txt

El archivo robots es un archivo de texto plano que, colocado en la raíz de nuestro sitio web, da instrucciones a los robots de cómo deben navegar por el mismo. Este archivo constituye un estándar de hecho, conocido como "protocolo de exclusión de robots", aunque no es un verdadero estándar. Se compone de una serie de reglas que excluyen a robos concretos conocidos o a todos en general (esto último es lo más común) y tiene el siguiente aspecto:

User-agent: * Disallow: /data/ Disallow: /scripts/

Este fragmento del robots.txt indica que todos (*) los robots deben obviar el contenido de las carpetas data y scripts de nuestro sitio web. En función del tipo de hosting que utilicemos es posible que no se nos permita modificar a nuestro antojo cualquier archivo, lo cual suele afectar al archivo robots. Aún sin tener acceso a él, podemos emular su comportamiento mediante etiquetas incluidas en cada una de las páginas:

  • follow/nofollow: este atributo aplicable a los enlaces fue creado por Google y en la actualidad es tenido en cuenta por más buscadores. Indica al robot que no debe de seguir el enlace en que está aplicado. También puede aplicarse cómo en su fórmula original, cómo atributo de content en una etiqueta meta con nombre robots. En este caso indicará al robot que no debe seguir ningún enlace externo de la página
  • index/noindex: atributo aplicable a las etiquetas meta para indicar a los robots que no indexe el contenido de la página en la que se aplica. Es combinable con el atributo anterior.
<html>
<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
</head>

Utilizar cualquiera de estas técnicas no nos asegura que los robots pasen por alto las secciones que especifiquemos. Digamos que funciona como una especie de "manual del buen comportamiento", pero hay robots cuyo objetivo es recabar información para alimentar bases de datos de contactos que ignoran todas estas directivas. Poco podemos hacer contra estas prácticas.

En el archivo /robots.txt podemos también indicar la ruta del sitemap de nuestro sitio web, con el fin de que los robots lo interpreten e indexen con más precisión nuestro sitio.

El archivo sitemap

Este archivo proporciona a las arañas e indexadores una lista de páginas "que no pueden dejar de visitar". Es una especie de guía recomendatoria de todo lo que tiene interés en nuestro sitio y queremos facilitar su indexación. La versión más sencilla del sitemap es un archivo de texto con una lista de URLs a visitar, una por línea.

Una versión más elaborada consiste en generar un archivo xml, donde las páginas se organizan jerárquicamente formando "menús". Esta versión es mucho más completa, ya que además de la url podemos especificar una prioridad de indexación (un número de 0 a 1) y un atributo que estima la frecuencia de cambio de la página para dar pistas al robot de con qué frecuencia debería de volver a recorrer nuestro sitio para reindexarlo. Existen numerosas herramientas para generar estos archivos, cómo por ejemplo

Aunque no estrictamente necesario, puede ayudar a que nuestro sitio se indexe con rapidez enviar el sitemap a los principales buscadores.



Sitemap generado con la herramienta online gratuita Free Online Sitemap Generator