Robots.txt

¡Hola a todos! Hoy en una nueva entrega del curso de páginas web vamos a tratar o pelearnos con el archivo robots.txt. Vamos a explicar qué es, para que debemos usarlo y en definitiva, todo lo que necesitamos saber del archivo robots.txt. Verás que es muy sencillo y admite muchas formas de hacerlo. ¡Vamos a ello!

¿Qué es el archivo robots.txt?

📌 Es un archivo que consultan los rastreadores de los buscadores (robots). Este archivo les da directrices de los archivos que pueden consultar o no de una página web.

De esta forma evitamos un exceso de solicitudes hacia nuestra página web evitando gastar recursos de manera innecesaria e incluso saturar la web. Este archivo no se usa para impedir el acceso a los buscadores, se usa para controlar su acceso, no para impedirlo.

Cuando no queremos que una página se indexe en los buscadores, no debemos usar el archivo robots.txt, ya que esa página puede recibir enlaces de otras página, el robot llega y la podría indexar. Para evitar esto, las páginas que no queremos que se indexen deben estar en no index.

El archivo robots.txt da directivas a los buscadores, pero son los propios rastreadores los que decidirán seguirlas o no, es decir, Google hace lo que quiere. Para proteger un directorio de los rastreadores, la solución más efectiva suele ser poner una contraseña a ese directorio.

Qué es un robots.txt
Las arañas de los buscadores consultan el archivo robots.txt antes de iniciar el rastreo por la web.

¿Cómo podemos crear el archivo robots.txt?

Si usas Rank o Yoast, en sus opciones tendrás la posibilidad de editar ese archivo desde el propio WP. Otra opción, es con acceso a tu servidor, deberás poner un archivo de texto en el directorio raíz de tu página web. Con el nombre: robots.txt

Es un archivo público que puedes consultar, su ruta habitual es: dominio/robots.txt. Puedes echar un vistazo al mio aquí. Como ves, es simplemente un archivo txt al que le vamos a añadir una líneas. No es algo que sea imprescindible para empezar, y puedes crear un robots.txt sencillo y perfectamente válido. Pero antes de verlo, vamos a tratar con los diferentes elementos que podremos tocar.

Elementos del archivo robots

Los elementos o comandos que más usaremos en nuestro archivo.

  • User-agent: Son las arañas o robots de los buscadores que hay. ¿Quieres saber cuántos hay? Mira aquí.
  • Disallow: Indicamos al robot que no debe acceder la URL o directorio.
  • Allow: Indicamos que directorios sí debe restrear.

Podemos poner tantos agentes como queramos y las reglas para cada agente justo debajo, sería algo así:

Sitemap: https://davidrst.com/sitemap_index.xml
User-agent: [nombre del agente]
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
User-agent: [nombre del agente]
Disallow: /

Estamos indicando nuestro sitemap para facilitar el rastreo. Al primer agente no le permitimos entrar en wp-admin y le permitimos entrar en el siguiente directorio. Al segundo agente le prohibimos el paso a todo el sitio. Recuerdo que son normativas que son los propios robots los que deciden cumplir o no.

Reglas de concordancia

Podremos usar reglas de concordancia, comodines, etc para simplificar nuestro archivo, de esta forma podremos:

  1. Asteristo (*): se sustituye por cualquier cosa, de esta forma user-agent: * Son TODOS los robots.
  2. Barra inclinada (/): Se usa antes de lo que quieras bloquear. Disallow: / (todo el sitio) Disallow: /directorio/
  3. Dólar ($): Se usa para bloquear cadenas, es decir /*.exe$ Esto establece que cualquier directorio que contenta .exe no deberá ser rastreado.

Ejemplo de un archivo robots.txt sencillo

Bueno, me puedes decir que tú no sabes que directorios debes bloquear y cuales permitir. Te voy a responder, como si dejas el archivo en blanco. Estas directrices se usan mucho más en grandes sitios web, piensa en un periódico o en Amazon con miles y miles de URLs. Ayudan al robot, no malgastan recursos y todo es más eficaz. Para una web de unas pocas de URLs, no es tan importante.

Podemos poner algo así:

User-agent: *
Disallow: /wp-admin/
Sitemap: https://davidrst.com/sitemap_index.xml

En este archivo estamos diciendo que:

Todos los robots (user-agent: *) no deberían ir a /wp-admin/ que es la página de acceso al panel de control y tiene contraseña y el sitemap: está aquí.

Con esto para cualquier sitio WordPress es más que suficiente.


Sigue leyendo:
generatepress pro

GeneratePress PRO

GeneratePress Dentro de nuestro curso de cómo hacer páginas web es hora del tema de la web, vamos a preparar ...
Leer Más
Estudio de palabras clave

Estudio de palabras clave

Estudio de palabras clave En esta clase del curso de creación de páginas web vamos a tratar el tema de ...
Leer Más
elegir un buen dominio

Elegir un buen dominio

Elegir un buen dominio En esta clase del curso de creación de páginas web vamos a ver qué tipo de ...
Leer Más
Curso seo gratuito

Curso SEO Gratuito

Curso SEO Gratuito Dentro del curso de creación de páginas web, hay que parte muy importante: el SEO. Si queremos ...
Leer Más
curso Asset CleanUP PRO

Asset CleanUP PRO

Asset CleanUP PRO Optimiza tu sitio La velocidad de carga de una web es muy importante para la experiencia de ...
Leer Más
Texto SEO

Texto SEO

Texto SEO Hola a todos, en esta nueva entrada del curso de creación de páginas web, llegamos a un momento ...
Leer Más
Herramientas necesarias y coste para hacer una web

Herramientas necesarias y coste para hacer una web

Herramientas necesarias y coste para hacer una web Vamos a dar un repaso a las herramientas con las que trabajaremos ...
Leer Más
Aspectos legales para tú página web

Aspectos legales para tú página web

Aspectos legales para tú página web Cuando creamos una página web, debemos tener en cuenta los aspectos legales para tú ...
Leer Más
optimizar imágenes

Optimizar imágenes para WordPress

Optimizar imágenes para WordPress Hoy vamos a hacer una parte muy importante dentro de nuestra web; Optimizar imágenes para WordPress ...
Leer Más
Cómo instalar wordpress

Cómo instalar WordPress

Cómo instalar WordPress Hola a todos, seguimos con nuestro curso para hacer páginas web, hoy nos toca instalar WordPress en ...
Leer Más
elegir un buen hosting

Elegir un buen Hosting

Elegir un buen Hosting Un hosting es algo imprescindible cuando pensamos hacer una página web. En esta clase del curso ...
Leer Más
vocabulario seo

Vocabulario SEO

Vocabulario SEO Para poder seguir nuestro curso de creación de páginas web debemos primero asimilar unos conceptos que se usan ...
Leer Más