
Una mirada práctica al uso moderno del robots.txt, desde la lógica de allow y disallow hasta los comodines, el control de la tasa de rastreo y cómo evitar los errores habituales
El Protocolo de Exclusión de Robots (REP), más conocido como robots.txt, lleva con nosotros desde 1994. Aunque no se adoptó oficialmente como estándar hasta 2022, la correcta gestión del robots.txt y SEO ha sido una práctica recomendada fundamental desde los inicios y sigue siendo una herramienta clave para la optimización de sitios hoy en día.
Este archivo, sencillo pero potente, ayuda a controlar cómo los motores de búsqueda y otros bots interactúan con un sitio web. Las actualizaciones recientes han hecho que sea importante entender las mejores formas de utilizarlo.
Por qué es importante robots.txt
El robots.txt es un conjunto de instrucciones para los rastreadores web (crawlers), indicándoles qué pueden y qué no pueden hacer en su sitio.
Te ayuda a mantener ciertas partes de tu sitio web privadas o a evitar el rastreo de páginas que no son importantes.
De esta forma, puedes mejorar tu SEO y mantener tu sitio funcionando con fluidez.
Configurando tu archivo robots.txt
Crear un archivo robots.txt es sencillo. Utiliza comandos simples para instruir a los rastreadores sobre cómo interactuar con tu sitio web.
Los esenciales son:
User-agent, especifica el bot al que te diriges.Disallow, indica al bot dónde no puede entrar.
Aquí tienes dos ejemplos básicos que demuestran cómo el robots.txt controla el acceso del rastreador.
Este permite a todos los bots rastrear el sitio completo:
User-agent: *
Disallow:
Este indica a los bots que rastreen todo el sitio excepto la carpeta “Keep Out”:
User-agent: *
Disallow: /keep-out/
También puedes especificar que ciertos rastreadores se mantengan fuera:
User-agent: Googlebot
Disallow: /
Este ejemplo instruye a Googlebot para que no rastree ninguna parte del sitio. No se recomienda, pero captas la idea.
Uso de comodines
Como puedes ver en los ejemplos anteriores, los comodines (*) son útiles para crear archivos robots.txt flexibles.
Te permiten aplicar reglas a muchos bots o páginas sin tener que enumerar cada uno de ellos.
Control a nivel página
Dispones de un gran control sobre el rastreo (spidering) si es necesario.
Si necesitas bloquear solo ciertas páginas en lugar de bloquear un directorio entero, puedes bloquear únicamente archivos específicos. Esto te otorga mayor flexibilidad y precisión en tu estrategia de marketing digital.
Ejemplo:
User-agent: *
Disallow: /keep-out/file1.html
Disallow: /keep-out/file2.html
Solo se restringen las páginas necesarias, por lo que tu contenido valioso permanece visible.
Combinando comandos
En el pasado, la directiva Disallow era la única disponible, y Google tendía a aplicar la directiva más restrictiva del archivo.
Los cambios recientes han introducido la directiva Allow, otorgando a los propietarios de sitios web un control mucho más granular sobre cómo se rastrean sus sitios.
Por ejemplo, puedes instruir a los bots para que solo rastreen la carpeta “importante” y se mantengan fuera de cualquier otro lugar.
User-agent: *
Disallow: /
Allow: /important/
También es posible combinar comandos para crear reglas complejas.
Puedes utilizar directivas Allow junto con Disallow para ajustar el acceso.
Ejemplo:
User-agent: *
Disallow: /private/
Allow: /private/public-file.html
Esto te permite mantener ciertos archivos accesibles mientras proteges otros.
Dado que el valor predeterminado de robots.txt es permitir todo, combinar directivas Disallow y Allow generalmente no es necesario. Mantenerlo simple suele ser lo mejor.
Sin embargo, hay situaciones que requieren configuraciones más avanzadas, propias de una Agencia de marketing técnica.
Si gestionas un sitio web que utiliza parámetros de URL en los enlaces del menú para rastrear clics a través del sitio y no puedes implementar etiquetas canónicas, podrías aprovechar las directivas de robots.txt para mitigar problemas de contenido duplicado y proteger tu posicionamiento.
Ejemplo:
User-agent: *
Disallow: /*?*
Otro escenario en el que podría ser necesaria una configuración avanzada es si una maña configuración provoca la aparición de URLs de baja calidad en carpetas con nombres aleatorios, lo cual afectaría a tu reputación online. Ejemplo:
User-agent: *
Disallow: /
Allow: /essential-content/
Allow: /essential-content-1/
Allow: /essential-content-2/
Comentarios
Los comentarios pueden ser una forma práctica de esquematizar la información de una manera más amigable para las personas.
Los comentarios van precedidos por el signo de almohadilla (#).
En los archivos que se actualizan manualmente, recomendamos añadir la fecha en que se creó o actualizó el fichero.
Eso puede ayudar a solucionar problemas si se restaura accidentalmente una versión antigua desde la copia de seguridad.
Ejemplo:
#robots.txt file for www.example-site.com – updated 3/22/2025
User-agent: *
#disallowing low-value content
Disallow: /bogus-folder/
Gestionando la tasa de rastreo
Gestionar la tasa de rastreo es clave para mantener controlada la carga de tu servidor y asegurar una indexación eficiente.
El comando Crawl-delay te permite establecer un retraso entre las solicitudes de los bots.
Ejemplo:
User-agent: *
Crawl-delay: 10
En este ejemplo, estás pidiendo a los bots que esperen 10 segundos entre solicitudes, evitando la sobrecarga y manteniendo un funcionamiento fluido.
Los bots avanzados pueden detectar cuánto están sobrecargando un servidor, por lo que la directiva Crawl-delay no es tan necesaria como pudo haberlo sido en el pasado.
Enlace al sitemap XML
Aunque Google y Bing prefieren que los propietarios de sitios web envíen sus sitemaps XML a través de Google Search Console y Bing Webmaster Tools, sigue siendo un estándar aceptado añadir un enlace sitemap XML del sitio al final del archivo robots.txt.
Puede que no sea necesario, pero incluirlo no hace daño y podría ser útil.
Ejemplo:
User-agent: *
Disallow:
Sitemap: https://www.my-site.com/sitemap.xml
Si añades un enlace a tu sitemap XML, asegúrate de que la URL sea completa (absoluta).
Errores comunes con el robots.txt

Sintaxis incorrecta
Asegúrate de que tus comandos estén correctamente formateados y en el orden adecuado.
Los errores pueden llevar a malinterpretaciones.
Revisa tu robots.txt en busca de errores en Google Search Console; la comprobación del robots.txt se encuentra en Ajustes.
Restringir el acceso en exceso
Bloquear demasiadas páginas puede perjudicar la indexación de tu sitio.
Utiliza los comandos Disallow con sabiduría y piensa en el impacto sobre tu posicionamiento y visibilidad de búsqueda.
Esto también aplica al bloqueo de los bots que alimentan las nuevas herramientas de búsqueda de IA.
Si bloqueas esos bots, no tendrás oportunidad de aparecer en las respuestas que generan esos servicios.
Olvidar que los bots no siempre siguen el protocolo
No todas las spiders obedecen al Protocolo de Exclusión de Robots.
Si necesitas bloquear bots que no se “comportan” bien, necesitarás tomar otras medidas para mantenerlos fuera.
También es importante recordar que bloquear spiders en el robots.txt no garantiza que la información no termine en un índice.
Por ejemplo, Google advierte específicamente que las páginas con enlaces entrantes desde otros sitios web pueden aparecer en su índice.
Si quieres asegurarte de que las páginas no terminen en un índice, utiliza la etiqueta meta noindex en su lugar.
Se necesitan directivas especiales para los bots de IA
Una idea errónea común en el mundo del marketing digital y la optimización es que los bots de IA requieren sus propias directivas allow. No es así.
La mayoría de los rastreadores de IA siguen el REP, por lo que si tu robots.txt permite el acceso a todos los bots, ellos rastrearán el sitio.
Si bloqueas todos los bots, ellos no lo háran. No se necesitan directivas extra.
Te puede interesar:
- Googlebot domina el rastreo web en 2025 frente a la explosión de los bots de IA
- 5 razones para usar el nuevo plugin para WordPress de Internet Archive
- Google incorpora configuración basada en IA a Search Console
- Robots.txt y SEO: Todo lo que necesitas saber para optimizar tu rastreo en 2026
93 604 20 74
623 39 90 31