Los “crawler” (también llamado “spider” o robot) que envían los buscadores para recorrer el contenido de tu página e indexarla, suelen chequear en primer lugar un archivo llamado robots.txt. Si sabemos configurar este archivo, podremos determinar qué robots tienen permitida la entrada y que otros no tienen autorización para revisar los contenidos de nuestro servidor.
Lo primero que debemos saber es la sintaxis básica de este archivo. Atención al siguiente ejemplo User-agent *Allow/ Con el comando “User-agent” se identifica el nombre del robot al que vamos a aplicar la reglas que vendrán a continuación.
Cada motor de búsqueda posee un nombre único para su robot. Por ejemplo, el de Google se llama “Googlebot”. Bing ha bautizado al suyo como “MSNBot”, y el de Yahoo se conoce como “Slurp”. Aunque no existe una lista universal de todos los robots que circulan actualmente por la red, como es obvio, puedes consultar esta lista si quieres saber algún nombre de un buscador concreto. El asterisco que aparece en el ejemplo significa “todo”. Y la barra inclinada “/” se refiere a la carpeta raíz de tu página Web. Así que, si traducimos el ejemplo que hemos visto más arriba, querría decir algo como lo siguiente “Todos los buscadores están autorizados a que sus robots indexen toda la página Web desde su directorio raíz”. Ahora debes estar pensando que, este ejemplo equivale a no tener ningún archivo robots.txt, y estás en lo cierto, sin embargo, si sustituimos el asterisco por el nombre de un robots estaríamos dando la entrada sólo a este. En las próximas semanas veremos más tutoriales de este para comprender poco a poco la sintaxis del archivo robots.txt. Te aseguro que conocer y controlar el verdadero funcionamiento de indexación de los motores de búsqueda como Google puede dar mucha más seguridad y éxito a tu página Web. Vía