El protocolo de exclusión de robots, del cual forma parte el archivo robots.txt
, fue propuesto por primera vez en 1994 por Martijn Koster, un desarrollador web que trabajaba para Nexor. Su objetivo era abordar el problema del tráfico generado por los robots de rastreo y proporcionar a los webmasters un método para controlar el acceso a su contenido.
1. Controlar el Acceso de los Robots: Permitir o restringir el acceso de los robots a ciertas partes del sitio web.
2. Optimizar el Rastreo: Dirigir a los robots hacia las secciones más importantes del sitio, mejorando así la eficiencia del rastreo y la indexación.
3. Proteger Información Sensible: Prevenir que áreas sensibles o privadas del sitio sean rastreadas e indexadas.
El archivo robots.txt
es un archivo de texto simple ubicado en el directorio raíz del sitio web. Su estructura se basa en una serie de reglas que especifican qué agentes de usuario (robots) pueden acceder a qué partes del sitio. Aquí hay un ejemplo básico de un archivo robots.txt
:
User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /public/
1. User-agent: Especifica a qué robots se aplica la regla. Un asterisco (*
) se utiliza para referirse a todos los robots.
2. Disallow: Indica las rutas que no deben ser rastreadas por el robot especificado.
3. Allow: Permite el acceso a rutas específicas. Esta directiva es útil cuando se quiere permitir el acceso a subdirectorios o páginas específicas dentro de un directorio que, en general, está desautorizado.
Para evitar que todos los robots rastreen cualquier parte del sitio:
User-agent: *
Disallow: /
Para permitir que todos los robots rastreen todo el sitio:
User-agent: *
Disallow:
Para bloquear carpetas específicas como /admin
y /private
:
User-agent: *
Disallow: /admin/
Disallow: /private/
Para bloquear un archivo específico como secret.html
:
User-agent: *
Disallow: /secret.html
Para permitir solo a un robot específico, por ejemplo, Googlebot:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
El archivo robots.txt
debe ubicarse en el directorio raíz del sitio web. Si el sitio está en www.example.com
, el archivo debe estar disponible en www.example.com/robots.txt
.
El archivo debe ser lo más sencillo y directo posible. Evita sobrecargarlo con reglas innecesarias.
Google ofrece herramientas en su Search Console para probar y validar el archivo robots.txt
. Estas herramientas ayudan a asegurarse de que las reglas se interpreten correctamente.
Es importante entender que el archivo robots.txt
no debe usarse como una medida de seguridad. Aunque se puede usar para evitar que los robots rastreen partes del sitio, no evita que los usuarios accedan a esas áreas directamente. Para proteger información sensible, es mejor usar métodos de autenticación y autorización adecuados.
Puedes especificar diferentes reglas para diferentes robots en un solo archivo robots.txt
:
User-agent: Googlebot
Disallow: /private/
User-agent: Bingbot
Disallow: /images/
User-agent: *
Disallow: /temp/
Algunos motores de búsqueda permiten la directiva Crawl-delay
para especificar el número de segundos que un robot debe esperar entre solicitudes:
User-agent: *
Crawl-delay: 10
También puedes especificar la ubicación de tu archivo sitemap dentro del archivo robots.txt
:
User-agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml
El archivo robots.txt
es una herramienta poderosa para administrar cómo los robots de rastreo interactúan con tu sitio web. Permite a los webmasters controlar qué contenido se rastrea y se indexa, optimizando así el proceso y protegiendo áreas sensibles del sitio. Sin embargo, es crucial usarlo correctamente y no depender de él como una medida de seguridad. Con una configuración adecuada, el archivo robots.txt
puede contribuir significativamente a mejorar la visibilidad y eficiencia de tu sitio web en los motores de búsqueda.
Jorge García
Fullstack developer