Robots.txt

¿Para qué sirve Robots.txt?

El archivo robots es un protocolo de seguridad que se programa dentro del código de su página web para evitar que diferentes tipos de bots visiten e invadan su sitio.

Sin embargo, a pesar de solucionar muchos problemas de seguridad con gran eficacia, es una herramienta desconocida para algunos o muy poco aprovechada por otros.

Es por esta razón que en el blog corporativo de Optimización Online hablaremos de qué se trata este método anti bots, así como la importancia de saber manejar el tema ante nuestros clientes o sobre las ventajas que implica este protocolo en sus sitios web.

Esperamos, que al finalizar este artículo usted pueda entender las ventajas de esta potente herramienta.

¿Qué es robots.txt?

En un lenguaje técnico, el archivo se refiere a un administrador de archivos de texto que le indica a los bots que visitan nuestra página web, instrucciones específicas sobre dónde pueden o no acceder, así como las partes que integran nuestro sitio

Quizá de primera impresión, esto pueda parecer algo confuso o innecesario, sin embargo, debemos tener siempre presente que nuestro sitio web, cuenta con diversas y numerosas carpetas que contienen información confidencial, distribuciones de seguridad, etc. que es necesario proteger para evitar que ninguna persona no autorizada pueda tener acceso a ella.

Al proteger nuestro sitio web con la herramienta robots, evitaremos que cualquier bot de origen desconocido visualice nuestra información confidencial sin estar autorizado.

Y a todo esto, ¿qué es un bot?robots-txt

Algunos buscadores como Google hacen uso de bots (robots) para poder tener acceso a una página web, ya que sus funciones principales son leer, recopilar y guardar los contenidos del sitio en una base de datos, así como seguir los enlaces que nuestra página pueda tener hacia otros sitios web y viceversa.

Como definición básica, encontramos que un bot, es una pequeña pieza de software que escanea los sitios web y se lleva consigo toda la información obtenida a un servidor. Los bots más potentes son los utilizados por Google (también conocidos como Googlebots).

Sin embargo, también existe la posibilidad de que algunos bots sean programados por terceros con fines maliciosos, como el detectar vulnerabilidades en nuestra página y a partir de eso robar datos, realizar inyecciones de código y otras prácticas maliciosas. Más adelante hablaremos detalladamente acerca de los cyberthugs, que es como se conoce a ese tipo de personas.

¿Dónde ubico el archivo de robots?

El archivo puede ser colocado donde el programador o webmaster considere útil. Sin embargo, es mejor facilitar las cosas para Google, por lo que la mejor opción es que esté enlazada en una URL amigable. Esto significa el nombre de su dominio debe aparecer precedido de la extensión robots, como en el siguiente ejemplo: www.optimizacion-online.com/robots.txt

¿Cómo elaboró el archivo robots?

Construir un archivo de este tipo para un sitio hecho a mano es una tarea complicada que requiere ya sea de un webmaster o un programador con mucha experiencia. La parte difícil no consiste en su programación (ya que este código es sólo un par de renglones dentro del programa), sino en determinar los criterios sobre a qué partes de nuestro sitio web se les va a permitir el acceso a los distintos bots que lleguen a visitarlo para que obtengan toda la información que les sea relevante, todo esto bajo una serie de lineamientos en el código que evitarán su ingreso a las partes sensibles de dicha información.

Nota: Si usted cuenta con un proyecto en alguno de los “CMS” (Content Management System o Gestor de Contenidos) más comunes como WordPress, el proceso es más relajado, ya que automáticamente tendrá un archivo de robots listo y funcionando. Aunque, si usted es experto en el tema, tendrá la posibilidad de configurar aún más sus funciones.

Bueno, ya cuento con el archivo de robots, ¿está todo hecho?

Contar con un archivo de robots bien definido y estructurado, es un enorme avance para nuestra página web. Sin embargo para que todo funcione correctamente, es recomendable que ingrese en sus propias URL’s amigables y revise dentro del programa si el archivo robots.txt no contiene errores de programación o más formales.

El archivo forma parte de los elementos fundamentales en la configuración de una web-hosting, además resulta de vital importancia al momento de la configurar la base del SEO (Posicionamiento web orgánico) para los motores de búsqueda.

En caso de que todo esto ya este preparado para ejecutarse, —o en el mejor escenario, ya se esté desarrollando— habrá que volver a analizar las instrucciones existentes en cuanto al chequeo e indexación destinadas para el contenido del sitio web.

Retomando el tema sobre la posibilidad de configurar el archivo de robots, decíamos que es posible la personalización para que se aplique solamente a los robots de determinados buscadores (Meta tag: Googlebot) o, también, para excluir únicamente a determinadas páginas (disallow: “y el nombre de la carpeta”) o directorios.s

Desventajas

Este proceso es consultivo. Quiere decir que confía en la cooperación total de los bots del sitio web (Estamos a su merced), es decir, la manera en que opera este archivo es marcando una o más áreas dentro de un sitio a las afueras de los rangos de búsqueda con el uso activo del archivo “robots.txt”, aunque éste no necesariamente asegure un aislamiento completo. Algunos webmasters ejecutan el archivo de robots para hacer algunas partes privadas o en otras palabras, invisibles para al resto del mundo, pero dado que los archivos están disponibles de manera pública, su contenido podría ser visualizado de todas maneras básicamente por cualquier persona con internet y conocimientos de programación medianamente avanzados.

Observaciones

Los bots de los motores de búsqueda son sensibles a las minúsculas y a las mayúsculas, es de suma importancia agregarlos tal y como se muestran listados en el servidor, para una correcta programación y entendimiento ente el robot y el servidor.

robots-txt

 

Publicaciones Recientes

Deja un comentario