En nuestro día a día utilizamos innumerables veces los buscadores, y estos a su vez necesitan información, quieren conocer todo de nuestras vidas y páginas web. Por eso, los buscadores cuentan con unas máquinas o robots que rastrean la web para clasificar e indexar la mayor cantidad de información posible a sus bases de datos. Los robots.txt son un de estas máquinas, muy usada en la red para indexar el contenido web. También tienen otros usos como la localización de sitios en XML o bloquear el acceso a archivos de código y directorios.
Qué es un archivo robots.txt
Cuando creamos un sitio web necesitamos que Google pueda acceder a la página para rastrear la información. Para ello, necesitamos crear un archivo de texto en el dominio para que el buscador obtenga toda la información que nos interesa que sepa sobre la web.
Además, el archivo es utilizado para impedir que los bots o robots.txt agreguen datos e información que no deseamos compartir con el buscador. Siendo el robots.txt un archivo que se encuentra en la raíz de un sitio y que indica a qué partes pueden acceder los rastreadores de los motores de búsqueda y a qué partes no pueden acceder.
Cómo funciona el archivo
Aunque pueda parecerte muy complicado el funcionamiento de un archivo robots.txt, en realidad es muy sencillo. Para empezar, hay que tener en cuenta que las instrucciones del archivo son meras indicaciones y no es algo definitivo.
Un consejo importante es que si tu página web va a tener información sensible que no se va a querer compartir, lo mejor es no crearla, para que los motores de búsqueda no puedan llegar a ella.
Para llevar a cabo la limitación a la hora de indexar archivos debemos usar el comando «Disallow». De esta forma podemos bloquear todo el sitio, bloquear un directorio o una página entera.
Cómo se crea el archivo robots.txt
Para su creación es necesario darle acceso a la raíz del dominio y subir el archivo en formato texto (txt) con nombre «robots.txt» al directorio raíz de primer nivel del servidor donde esté ubicada la web que queremos indexar. Es importante utilizar un archivo de texto, a poder ser archivos de texto plano.
Por último, hay que comprobar que funciona el robots.txt. Como comentamos en un post anterior, Google nos da una herramienta gratuita de prueba, Google Search Console. Esta herramienta comprobará que el archivo se lee correctamente y también te informa de los posibles errores.
¿Crees que realmente podemos restringir información de la web a los motores de búsqueda? ¿Lo ves efectivo?