viernes 6 diciembre 2024

Archivo robots.txt para Evitar que Indexen tu Sitio Web

El archivo robots.txt es un archivo de texto que se coloca en el directorio raíz de tu sitio web. Su función principal es dar instrucciones a los bots de los motores de búsqueda sobre qué páginas o secciones de tu sitio deben evitar rastrear o indexar. Estas instrucciones se denominan Directivas.

Cuando un bot accede a tu sitio, revisa el archivo robots.txt antes de continuar con el rastreo. Aunque la mayoría de los bots legítimos respetan estas directivas, no es una garantía absoluta contra rastreos no deseados.

Cómo evitar que todo el sitio sea indexado

Para bloquear completamente el acceso de los motores de búsqueda a tu sitio web, puedes configurar el archivo de la siguiente manera:

User-agent: *
Disallow: /

Desglose de las directivas:

User-agent: Indica a qué bots se aplican las reglas. * significa que se aplica a todos los bots.
Disallow: Especifica las rutas que no deben ser rastreadas. / bloquea todo el sitio.

Bloquear secciones específicas

Si deseas evitar que solo ciertas partes de tu sitio sean indexadas, puedes personalizar las rutas:

User-agent: *
Disallow: /admin/
Disallow: /private/

En este ejemplo:

La carpeta /admin/ y /private/ están bloqueadas para todos los bots.

Ejemplo completo de un archivo robots.txt

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

Aquí, las secciones /admin/ y /private/ están bloqueadas, pero se permite el acceso a /public/.

Consideraciones importantes

No garantiza privacidad: Los archivos robots.txt son visibles públicamente, lo que significa que cualquiera puede ver las rutas bloqueadas. Si necesitas proteger información sensible, utiliza métodos adicionales como contraseñas o restricciones de servidor.
Usar con precaución: Evitar que ciertas partes de tu sitio sean indexadas puede afectar su visibilidad en los motores de búsqueda.
Bloqueo inmediato: Si necesitas evitar la indexación de manera urgente, combina el uso de robots.txt con la metaetiqueta noindex en las páginas específicas.

Etiquetas:

seo

Creado por:

Jorge García

Fullstack developer