Robots.txt
¡Hola a todos! Hoy en una nueva entrega del curso de páginas web vamos a tratar o pelearnos con el archivo robots.txt. Vamos a explicar qué es, para que debemos usarlo y en definitiva, todo lo que necesitamos saber del archivo robots.txt. Verás que es muy sencillo y admite muchas formas de hacerlo. ¡Vamos a ello!
Contenido
¿Qué es el archivo robots.txt?
📌 Es un archivo que consultan los rastreadores de los buscadores (robots). Este archivo les da directrices de los archivos que pueden consultar o no de una página web.
De esta forma evitamos un exceso de solicitudes hacia nuestra página web evitando gastar recursos de manera innecesaria e incluso saturar la web. Este archivo no se usa para impedir el acceso a los buscadores, se usa para controlar su acceso, no para impedirlo.
Cuando no queremos que una página se indexe en los buscadores, no debemos usar el archivo robots.txt, ya que esa página puede recibir enlaces de otras página, el robot llega y la podría indexar. Para evitar esto, las páginas que no queremos que se indexen deben estar en no index.
El archivo robots.txt da directivas a los buscadores, pero son los propios rastreadores los que decidirán seguirlas o no, es decir, Google hace lo que quiere. Para proteger un directorio de los rastreadores, la solución más efectiva suele ser poner una contraseña a ese directorio.

¿Cómo podemos crear el archivo robots.txt?
Si usas Rank o Yoast, en sus opciones tendrás la posibilidad de editar ese archivo desde el propio WP. Otra opción, es con acceso a tu servidor, deberás poner un archivo de texto en el directorio raíz de tu página web. Con el nombre: robots.txt
Es un archivo público que puedes consultar, su ruta habitual es: dominio/robots.txt. Puedes echar un vistazo al mio aquí. Como ves, es simplemente un archivo txt al que le vamos a añadir una líneas. No es algo que sea imprescindible para empezar, y puedes crear un robots.txt sencillo y perfectamente válido. Pero antes de verlo, vamos a tratar con los diferentes elementos que podremos tocar.
Elementos del archivo robots
Los elementos o comandos que más usaremos en nuestro archivo.
- User-agent: Son las arañas o robots de los buscadores que hay. ¿Quieres saber cuántos hay? Mira aquí.
- Disallow: Indicamos al robot que no debe acceder la URL o directorio.
- Allow: Indicamos que directorios sí debe restrear.
Podemos poner tantos agentes como queramos y las reglas para cada agente justo debajo, sería algo así:
Sitemap: https://davidrst.com/sitemap_index.xml
User-agent: [nombre del agente]
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
User-agent: [nombre del agente]
Disallow: /
Estamos indicando nuestro sitemap para facilitar el rastreo. Al primer agente no le permitimos entrar en wp-admin y le permitimos entrar en el siguiente directorio. Al segundo agente le prohibimos el paso a todo el sitio. Recuerdo que son normativas que son los propios robots los que deciden cumplir o no.
Reglas de concordancia
Podremos usar reglas de concordancia, comodines, etc para simplificar nuestro archivo, de esta forma podremos:
- Asteristo (*): se sustituye por cualquier cosa, de esta forma user-agent: * Son TODOS los robots.
- Barra inclinada (/): Se usa antes de lo que quieras bloquear. Disallow: / (todo el sitio) Disallow: /directorio/
- Dólar ($): Se usa para bloquear cadenas, es decir /*.exe$ Esto establece que cualquier directorio que contenta .exe no deberá ser rastreado.
Ejemplo de un archivo robots.txt sencillo
Bueno, me puedes decir que tú no sabes que directorios debes bloquear y cuales permitir. Te voy a responder, como si dejas el archivo en blanco. Estas directrices se usan mucho más en grandes sitios web, piensa en un periódico o en Amazon con miles y miles de URLs. Ayudan al robot, no malgastan recursos y todo es más eficaz. Para una web de unas pocas de URLs, no es tan importante.
Podemos poner algo así:
User-agent: *
Disallow: /wp-admin/
Sitemap: https://davidrst.com/sitemap_index.xml
En este archivo estamos diciendo que:
Todos los robots (user-agent: *) no deberían ir a /wp-admin/ que es la página de acceso al panel de control y tiene contraseña y el sitemap: está aquí.
Con esto para cualquier sitio WordPress es más que suficiente.