El archivo robots.txt
es un archivo de texto que se coloca en el directorio raíz de tu sitio web. Su función principal es dar instrucciones a los bots de los motores de búsqueda sobre qué páginas o secciones de tu sitio deben evitar rastrear o indexar. Estas instrucciones se denominan Directivas.
Cuando un bot accede a tu sitio, revisa el archivo robots.txt
antes de continuar con el rastreo. Aunque la mayoría de los bots legítimos respetan estas directivas, no es una garantía absoluta contra rastreos no deseados.
Para bloquear completamente el acceso de los motores de búsqueda a tu sitio web, puedes configurar el archivo de la siguiente manera:
User-agent: *
Disallow: /
*
significa que se aplica a todos los bots.
/
bloquea todo el sitio.
Si deseas evitar que solo ciertas partes de tu sitio sean indexadas, puedes personalizar las rutas:
User-agent: *
Disallow: /admin/
Disallow: /private/
En este ejemplo:
/admin/
y /private/
están bloqueadas para todos los bots.
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Aquí, las secciones /admin/
y /private/
están bloqueadas, pero se permite el acceso a /public/
.
robots.txt
son visibles públicamente, lo que significa que cualquiera puede ver las rutas bloqueadas. Si necesitas proteger información sensible, utiliza métodos adicionales como contraseñas o restricciones de servidor.
robots.txt
con la metaetiqueta noindex
en las páginas específicas.
Jorge García
Fullstack developer