Qué es el archivo robots.txt
El archivo robots.txt es un archivo de texto plano –sin formato– creado por un webmaster para dar instrucciones a los robots de los motores de búsqueda acerca de cómo deben rastrear e indexar el sitio web que administra.
No es obligatorio usar un archivo robots.txt en un sitio web para su óptimo rendimiento.
Cuando los «robots o arañas» de los buscadores llegan a un sitio web comienzan por leer el archivo robots.txt y si el sitio no dispone de este archivo las arañas rastrean e indexan todo el contenido que encuentran a su paso.
Para qué sirve el archivo robots.txt
La misión principal de este archivo–también denominado Protocolo de Exclusión de Robots– es dictar directrices restrictivas a las arañas de los buscadores para evitar los procesos de rastreo e indexación de una manera selectiva.
Ejemplos de uso
- A través del archivo robots.txt podemos bloquear el acceso a directorios completos, subdirectorios, archivos y/o páginas específicas en un sitio web que por alguna razón no queremos que sean rastreados.
- El archivo robots.txt también es útil para evitar el contenido duplicado de versiones para imprimir, páginas de test A/B… y evitar también la correspondiente penalización a nivel SEO.
- Cuando los robots rastrean un sitio web lanzan un gran número de peticiones al servidor de manera casi simultánea, que pueden llegar a desestabilizar el servidor si sus recursos o ancho de banda son escasos. En el archivo robots.txt podemos especificar un tiempo de espera entre el rastreo de cada página para impedir esta posibilidad.
- El archivo robots.txt también permite indicar a los motores de búsqueda la ubicación exacta de nuestro sitemap.
No es un herramienta de seguridad
El archivo robots.txt no está pensado para evitar ataques informáticos y de hecho es un archivo público al que cualquier araña o usuario puede acceder.
Solo tienes que escribir en el navegador el dominio de un sitio web seguido de /robots.txt para ver el contenido de su archivo.
Dos ejemplos: apple.com/robots.txt, axisrecords.com/robots.txt
En principio, robots como Googlebot o Bingbot (rastreadores de Google y Bing) respetarán las directivas descritas en el archivo pero ningún buscador ofrece garantía 100% de cumplirlas.
Por otro lado, existen cientos de robots que escanean la web con diversos fines e ignoran las instrucciones del archivo, como los rastreadores que buscan direcciones de email (email harvesters) o vulnerabilidades en los sistemas con fines delictivos (malware).
Comandos y comodines
Los robots de los buscadores solo pueden interpretar determinados comandos y comodines en el archivo robots.txt. Los comandos principales son:
- User-agent: indica qué robot debe cumplir las directivas que se dicten a continuación.
- Disallow: deniega el acceso.
- Allow: permite el acceso.
- Crawl-delay: indica al robot los segundos que debe esperar entre el rastreo de cada página.
- Sitemap: indica la ruta del mapa del sitio en formato XML.
Los comodines permiten aumentar o reducir la concordancia sobre las directivas indicadas:
- Asterisco (*): aplica sobre toda una secuencia cualquiera de caracteres.
- Dólar ($): aplica sobre los archivos que terminan de una forma concreta.
- Interrogación (?): aplica sobre urls que contengan el símbolo de interrogación.
Algunas reglas y consideraciones al escribir el archivo
- Indicar un único comando en cada línea.
- Respetar el uso de mayúsculas y minúsculas según corresponda.
- Restringir el acceso de un contenido a los robots no implica que ese contenido desaparezca del índice de los buscadores.
- La barra inclinada (/) utilizada por sí sola en una directiva aplica sobre todo el sitio web.
- El símbolo almohadilla (#) permite incluir texto, de utilidad para las personas, que los robots no leen.
- Puedes indicar las mismas directivas para todos los robots o especificar determinadas directivas para algunos de ellos.
Durante el desarrollo de un nuevo sitio web algunos webmasters configuran el archivo robots.txt bloqueando el acceso a todo el contenido y a todos los robots.
En estos casos es fundamental:
- Modificar el archivo permitiendo el acceso a los robots y a los contenidos que se consideren oportunos una vez que el nuevo sitio web es lanzado.
- Notificar a los buscadores la publicación del sitio web a través de las herramientas para webmasters. En caso contrario, los robots de los buscadores pueden «olvidar» el sitio web y no indexar sus páginas si visitaron el sitio durante el periodo en el que el acceso estuvo bloqueado.
Crear, guardar, comprobar y alojar el archivo robots.txt
Para crear el archivo necesitarás un programa de editor de textos como Notepad++, Aptana Studio o TextWrangler.
El archivo debe ser guardado con el nombre «robots» y la extensión «.txt».
Antes de subir el archivo robots.txt a tu servidor es recomendable comprobar que es legible por los buscadores. Search Console dispone de una herramienta para tal efecto.
Por último debes alojar el archivo robots.txt en la raíz de tu dominio –ubicación en la que los bots buscarán el archivo– utilizando un cliente FTP. De modo que tu archivo quede alojado en la ruta: http://tudominio/robots.txt
Si no estás familiarizado con los clientes FTP contacta con tu proveedor de hosting para que te ayude a subir o modificar el archivo.
Ejemplos de instrucciones para robots
Cada sitio web puede requerir directivas diferentes en el archivo robots.txt.
A continuación se exponen unos pocos ejemplos de las instrucciones que podemos incluir en un archivo robots.txt para entender mejor el uso de los comandos, los comodines y las reglas.
1. Bloquear todo el contenido a todos los robots:
Disallow: /
2. Permitir acceso a todo el contenido a todos los robots e indicar url del mapa del sitio:
Disallow:
Sitemap: https://www.example.com/sitemap.xml
3. Permitir acceso a todos los robots a todos los archivos excepto a directorios y archivos especificados. Retrasar 10 segundos el rastreo entre cada página:
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
4. Bloquear el acceso al robot de Google a todas las urls que contienen un signo de interrogación
Disallow: /*?
5. Bloquear el acceso al robot de Bing a todas las urls que terminan en «.xls»
Disallow: /*.xls$
Más información
- The Web Robots Pages
- Cómo crear un archivo robots.txt por Google y Bing