Qué es y para qué sirve un archivo Robots.txt

Un archivo Robots.txt es un pequeño archivo de texto con extensión .txt que subimos a nuestro sitio web para dar algunas instrucciones que hacen más “fácil de entender” nuestra web a los rastreadores o arañas cuando la exploran.
Sin embargo, es una explicación muy vaga para los amantes del marketing y el posicionamiento web. Por ello, profundizaremos mucho más, para que logres entender este aspecto tan básico y fundamental del SEO.
¿Cómo funciona el archivo Robots.txt?
Primero de todo, hay que involucrarnos en el contexto para entender cómo y por qué son necesarios estos archivos Robots.txt. Los buscadores facilitan la vida de los usuarios ayudándolos a conseguir información, para ello, clasifican y ordenan todas las páginas web en un índice según el contenido de cada una, lo que llamamos indexación.
Es necesario que nuestras páginas estén “indexadas” para que un buscador nos pueda mostrar en la SERP a los usuarios. Para mantener estos índices actualizados, cada cierto tiempo las “arañas” dan un recorrido rastreando las paginas, revisando nuevo contenido y añadiéndolo, lo que es posible a través de los Robots conocidos como arañas.
En WordPress puedes editar este archivo con el plugin Rank Math o Yoast Seo.
Aunque es muy bueno tener indexadas las distintas paginas o secciones de nuestra web, hay cosas que definitivamente no quieres que salgan es las búsquedas.
Este contenido se le llama de baja calidad y por lo general son imágenes que usas en la web, formularios, páginas de políticas y cosas con las que ningún usuario quiere toparse por error, porque seguramente no querrá volver a tu web jamás.
Para tener una idea de qué partes tomar en cuenta a la hora de indexar y cuales pasar por alto, las arañas consultan un archivo que se suele encontrar en las webs llamado Robots.txt.
¿Qué es un archivo Robots.txt?
El Robots.txt es un archivo de texto simple, que tiene instrucciones específicas para las arañas del buscador (por ejemplo, Google o Bing) a la hora de inspeccionar y rastrear nuestra web. Las instrucciones se crean con un código general que la mayoría de estos robots reconocen e interpretan.
Por lo general, se ubica en la carpeta raíz que aloja la pagina y son normalmente fáciles de consultar por cualquier usuario simplemente escribiendo /robots.txt al final del dominio de la mayoría de las páginas (webdejemplo.com/robots.txt).
Hacer este archivo no requiere de programas especiales ya que, simplemente necesitaremos un block de notas cualquiera para escribir los comandos en el orden que nos interese.
Elementos del archivo Robost.txt
Para usar el robots.txt lo normal es recurrir a una lista de órdenes que se irán ejecutando jerárquicamente una tras otra, los comandos que usualmente vemos son:
User-Agent:
Este comando señala a qué robot van dirigidas las instrucciones, ya que se pueden crear comando para ser seguidos por Google y unos comandos diferentes para Bing en el mismo archivo.
Por lo general, veremos algo como User-Agent: * que quiere decir que las reglas van dirigidas a todos los rastreadores.
Disallow:
Este comando se usa para indicar que la url o el contenido que desees no deberían ser indexado o aparecer en las búsquedas. Puedes eliminar las imágenes usando Disallow:/*jpg$ por ejemplo.
Allow:
Es un comando utilizado para conceder acceso. Se usa para todo aquello que quieras indexar, no parece muy útil en definición, pero se usa cuando quieres bloquear todo un fichero, pero a la vez dar acceso solo a una página que se pueda encontrar dentro. Por ejemplo:
Disallow:/ Carpetas /
Allow: / Carpetas/ Productos /
Sitemap:
Desde que los buscadores han diseñado más herramientas para detectar o definir automáticamente los sitemaps este comando es cada vez menos frecuente. Aunque seguimos viendo webs que incluyen la url del Sitemap en el archivo Robots.txt (https://webdejemplo.com/sitemap.xml)
Ejemplos de archivo Robots.txt
Por defecto no siempre vamos a tener que modificar estos archivos de texto, pero es interesante dominar el tema y entender como funciona todo el mecanismo. Aquí podemos ver algun ejemplo:
Para evitar indexar contenido de medios:
Para evitar aparecer en algunos buscadores:
Estos ejemplos son para dibujar una idea conceptual, no estamos recomendando usarlos en tu web.
Límites de los Robots.txt
Es importante que entendamos que este archivo de texto no es la única herramienta de la cual disponemos para evitar la indexación de contenido, o la solicitud de revisión por parte de los buscadores para que puedan actualizar nuestra web.
Estos robots.txt solo evitan que los rastreadores indexen contenido al recorrer tu web, pero las arañas no están obligadas a obedecer el archivo. Este es solo una referencia que amablemente le dejas a dicho algoritmo y que casi siempre cumplen.
Una vez que un contenido ha sido indexado en un buscador, añadir un disallow no va a hacer que el contenido deje de estar indexado, por lo que debemos tener cuidado.
También hay que tener en cuenta que si un sitio web diferente al tuyo, coloca una url que apunte hacia una página o contenido que has bloqueado con el archivo, este igual puede indexarse sin mayor problema, lo que deja claro que este no es el mejor medio para evitar indexar contenido.
Saber cómo funciona el algoritmo de rastreo puede serte de suma utilidad ya que dominando unos simples comandos te puedes ahorrar muchos dolores de cabeza y tus usuarios se alegrarán de no toparse en los buscadores con páginas de medios, o de baja calidad.