Hosting Knowledge Base

Crear archivo robots.txt

El archivo robots.txt más sencillo utiliza dos reglas:

Información adicional

Puede encontrar más información sobre que es un archivo robots.txt en el siguiente artículo:

Qué es el archivo robots.txt
  • User-Agent: el robot al que se aplica la siguiente regla
  • Disallow: la URL que desea bloquear

Estas líneas se consideran una única entrada en el archivo. Puede incluir todas las entradas que precise, así como varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores. Por ejemplo:

Archivo: robots.txt

  User-agent: *  Disallow: /carpeta1/    User-Agent: ejemplo1  Disallow: /carpeta2/  

En este ejemplo, las únicas URL que no puede rastrear el robot "ejemplo1" son las de /carpeta2/, mientras que para el resto de robots no pueden rastrear las URL de /carpeta1.

User-agents y robots

Un user-agent es un robot específico del motor de búsqueda. La base de datos de robots web incluye numerosos robots comunes.

Puede configurar una entrada para que se aplique a un robot específico (mediante el nombre del mismo), o para que se aplique a todos los robots (utilizando un asterisco).

Bloquear user-agents

La línea Disallow indica las páginas que desea bloquear. Puede insertar una URL específica o un patrón. La entrada debe comenzar con un "slash" (/).

  • Para bloquear todo el sitio, utilice un "slash".

    Archivo: robots.txt

    Disallow: /
  • Para bloquear un directorio y todo lo que contiene, inserte un "slash" después del nombre del mismo.

    Archivo: robots.txt

    Disallow: /directorio-sintítulo/
  • Para bloquear una página, indíquela después de la línea Disallow.

    Archivo: robots.txt

    Disallow: /archivo_privado.html
  • Para bloquear archivos de un determinado tipo, debe añadir lo siguiente:

    Archivo: robots.txt

    User-agent: ejemplo1  Disallow: /*.gif$
  • Para evitar que todos los robots excepto uno rastreen las páginas de su sitio, puede utilizar la regla "Allow". Por ejemplo:

    Archivo: robots.txt

    User-agent: *  Disallow: /    User-agent: ejemplo1  Allow: /

Concordancia mediante patrones

Algunos motores de búsqueda, como Google, respetan algunas concordancias mediante patrones.

  • Puede utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a Googlebot a todos los subdirectorios que empiecen por "private":

    Archivo: robots.txt

    User-agent: Googlebot  Disallow: /private*/
  • Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (?) (más concretamente, cualquier URL que empiece por el nombre de su dominio, seguido de una cadena, un signo de interrogación y una cadena), añada lo siguiente:

    Archivo: robots.txt

    User-agent: ejemplo1  Disallow: /*?
  • Para especificar la concordancia con el final de la URL, utilice $. Por ejemplo, para bloquear una URL que termine en .xls:

    Archivo: robots.txt

    User-agent: ejemplo   Disallow: /*.xls$

    Puedes utilizar esta concordancia mediante patrones en combinación con la directiva Allow. Por ejemplo, si el signo ? indica el ID de una sesión, puedes excluir todas las URL que lo contengan para asegurarte de que los robots de búsqueda no rastreen páginas duplicadas. Sin embargo, las URL que finalizan con dicho símbolo podrían ser la versión de la página que desea incluir. En ese caso, configure su archivo robots.txt del siguiente modo:

    Archivo: robots.txt

    User-agent: *  Allow: /*?$  Disallow: /*?

    La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?. Concretamente, bloqueará todas las URL que comiencen por el nombre de su dominio, seguido de cualquier cadena, un signo de interrogación y cualquier cadena.

    La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?. Concretamente, admitirá cualquier URL que comience por el nombre de su dominio, seguido de cualquier cadena y el símbolo ?, sin caracteres después de este último.

Notas

Guarde su archivo robots.txt en un archivo de texto. El archivo robots.txt debe ubicarse en la raíz del dominio y denominarse "robots.txt". Si se ubica en subdirectorios, no será válido, ya que los robots solo lo buscan en la raíz del dominio. Por ejemplo, http://www.ejemplo.com/robots.txt es una ubicación válida, pero http://www.ejemplo.com/misitio/robots.txt no lo es.

Archivos adjuntos

No se han encontrado archivos adjuntos.

¿Cómo puntuaría esta respuesta?



Para publicar un comentario para este artículo, simplemente complete el formulario más abajo. Los campos marcados con un asterisco son obligatorios.


Comentarios de los visitantes

  1. Comentario #1 (Publicado por Poeta Borracho)
    Pero si usas Disallow: /*? estás impidiendo el acceso a las versiones de móviles /?m=1 La verdad es que no termino de entender esto, pero yo creo que no debes bloquear el acceso a las móviles. Con todo yo lo tengo así pero creo la excepción Allow /?m=1 y entonces ya no me las bloquea.
  2. Comentario #2 (Publicado por Soporte Silicon)
    Hola Poeta Borracho, Si bien esto son solo ejemplos, y por lo tanto no podemos tener en cuenta todas las situaciones, agradecemos el comentario y esperamos que sirva a los usuarios que puedan ver este artículo. Un saludo.
  • SILICONTOWER, S.L.
  • ESB64611825
  • Rda.General Mitre 25 Bajos 2a
  • 08017 Barcelona