robots
,

Qué es un archivo robots.txt y para qué sirve

Un archivo robots.txt es un archivo que se sube a la raíz del servidor de alojamiento de un sitio web y da indicaciones a los rastreadores de las páginas que deben escanearse o ignorarse.

Existen diferentes rastreadores que escanean la totalidad de los sitios web. También se les conoce como robots y arañas. Un rastreador o robot es capaz de escanear la totalidad de las páginas publicadas en el sitio web, en ocasiones algunas no directamente accesibles o incluso inútiles para el público.

Los robots o rastreadores más conocidos son los que ofrecen servicios de búsqueda. Por ejemplo, Googlebot es el robot de Google. Pero existen más de 300 robots.

Para qué sirve el archivo robots.txt

  • El archivo robots.txt sirve para indicar a los trastreadores qué partes del sitio web deben ser excluídas del rastreo.
  • Permite indicar si las imágenes del sitio web deben o no ser rastreadas
  • Para evitar ser penalizados por contenido duplicado
  • Google no rastreará ni indexará el contenido bloqueado por robots.txt.

Para qué no sirve

  • El archivo robots.txt no sirve para ocultar páginas del sitio web o evitar que sean rastreadas. Esto no es posible ya que esas páginas muy posiblemente tendrán enlaces entrantes de otras páginas -del propio sitio web o enlaces de otros sitios- que harán que no sea posible evitar el rastreo.
  • Para proteger la seguridad o el acceso al sitio web.
  • Para evitar que otros rastreadores o bots diferentes de Google indexen el contenido bloqueado por robots.txt.

Este archivo es una indicación para los rastreadores, pero puede que sea ignorado por ciertos rastreadores, a veces maliciosos.

Riesgos

La utilización del archivo robots.txt conlleva riesgos porque el bloqueo del rastreo de determinadas páginas o archivos de un sitio web puede afectar directamente a su posicionamiento.