La araña GoogleBot

googlebot1

Googlebot (generalmente conocido como “araña”) es el robot de rastreo web de Google el cual añade información al índice de Google.

El proceso de rastreo de Googlebot comienza con una lista de URL de páginas web generada a partir de procesos de rastreo anteriores y se amplía con los datos de los sitemaps que ofrecen los webmasters.

A medida que Googlebot visita cada uno de esos sitios web, detecta enlaces (src y href) en sus páginas y los añade a la lista de páginas que debe rastrear. Los sitios nuevos, los cambios en los existentes y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google.

Más Información (Googlebot by Google):  Pulse Aquí

¿Cómo bloquear el acceso de GoogleBot al contenido de tu sitio?

googlebot2

Resulta prácticamente imposible no publicar enlaces a un servidor web para mantenerlo en secreto.

En el momento en que un usuario utilice un enlace de tu servidor “secreto” para acceder a otro servidor web, tu URL “secreta” podrá aparecer en la etiqueta de referencia, y el otro servidor web podrá almacenarla y publicarla en su registro de referencia.

Disponemos de varias opciones para evitar que la araña de Google rastree el contenido de tu sitio, nosotros vamos a tratar la opción del fichero robots.txt.

¿Cómo crear un archivo robots.txt?

googlebot3

Para no extendernos, vamos a explicar las reglas más básicas y dejamos al lector el enlace de Google por si quiere documentarse más extensamente.

El archivo robots.txt más simple utiliza dos reglas:

  • User-Agent: el robot al que se aplica la siguiente regla.
  • Disallow: la URL que quieres bloquear.

Expongamos un ejemplo (fichero robots.txt):

En la primera línea expecificamos el tratamiento del acceso a todos los rastreadores de contenido para la Web.

En la segunda línea especificamos que queda totalmente bloqueado todo el contenido que haya en esa carpeta.

Y en la tercera y última línea ocultamos la indexación de la imagen perros.jpg que tenemos guardada en la carpeta img de nuestro servidor (por ejemplo de esta forma la imagen no saldría en Google Imágenes).

Más Información (Cómo bloquear o eliminar páginas con un archivo robots.txt by Google):  Pulse Aquí