¡Aquí estoy de nuevo queridos lectores! Hoy os traigo un post que a más de uno os evitará un quebradero de cabeza, especialmente con la indexación de URLs indeseadas de nuestra web. Sí, ya lo habrás adivinado. Se trata del archivo robots.txt.
Para comenzar, el archivo Robots.txt controla cómo los motores de búsqueda acceden a tu sitio web.
Este archivo de texto contiene “directrices” para “decirles” a los motores de búsqueda a qué páginas deben acceder o no las arañas web.
Añadir las “directrices” incorrectas aquí puede tener un impacto negativo en tus rankings, ya que puede impedir que los motores de búsqueda rastreen ciertas páginas (o todo tu sitio web).
Índice de contenidos
¿Qué son los “robots”? (En términos de SEO)
Los robots son aplicaciones que “rastrean” o “crawlean” las URLs de los sitios web, “leyendo” (es decir, “indexando”) la información que contienen estos dominios.
En lo que respecta al archivo Robots.txt, estos robots se denominan “User-agents”.
Es posible que también los conozcas con otros nombres como:
- Arañas web
- Bots
- Crawlers
Estos no son los nombres oficiales de los “user-agents” de los “crawlers” de los motores de búsqueda. En otras palabras, para que no suene contradictorio, tú no puedes hacer “disallow” a un “Crawler”, sino que necesitarías obtener el nombre oficial del motor de búsqueda (por ejemplo el “crawler” de Google se llama “Googlebot”).
Estos robots son “influenciados” de varias maneras, incluyendo por el contenido que creas y los enlaces que apuntan a tu web.
Tu archivo Robots.txt es una especie de “hoja de ruta” con la que guiar a los robots de los motores de búsqueda, dándoles instrucciones claras sobre qué partes de tu sitio quieres que rastree o no.
¿Qué es el archivo robots.txt y cómo configurarlo?
Antes de nada, debes entender la “sintaxis” con la que se crea el archivo Robots.txt.
1. Define el “User-agent”
Indica el nombre del robot al que te refieres (por ejemplo, Google, Yahoo, etc.). Una vez más, quizás te sea de ayuda consultar la lista completa de “user-agents” para que te sea más fácil crear el archivo robots.txt para wordpress (que es el CMS más utilizado).
2. Disallow
Si deseas bloquear el acceso a ciertas páginas o a una sección de tu sitio web, deberías indicar en el archivo robots la ruta de la URL.
3. Allow
Si desea permitir una ruta URL dentro de un bloque principal importante, introduce en el archivo la URL de la ruta de ese subdirectorio.
En resumen, puedes crear el archivo robots.txt para decirles a estos “crawlers”, indexa estas páginas, pero no estas otras.
¿Por qué el archivo robots.txt es tan importante?
Al principio es posible que te “choque” y te parezca contraproducente “bloquear” el acceso a páginas a los motores de búsqueda. Pero, hay varias razones y explicaciones para hacerlo:
1. Bloquear información “sensible”
Por ejemplo, los directorios son un buen ejemplo. Probablemente querrás ocultar aquellos que puedan contener datos confidenciales como:
- /cart/ o /carrito/
- /cgi-bin/
- /scripts/
- /wp-admin/
2. Bloquear el acceso a páginas de baja calidad
Google ha declarado en numerosas ocasiones que es importante mantener tu sitio web “alejado” del contenido de baja calidad o “thin content”. Tener un montón de este tipo de contenido en tu dominio puede “fastidiar” su posicionamiento web.
3. Contenido Duplicado
Es posible que quieras excluir las páginas que contengan contenido duplicado. Por ejemplo, si ofreces “versiones impresas” de algunas páginas, no querrás que Google indexe versiones duplicadas, ya que el contenido duplicado podría perjudicar su posicionamiento.
Otro caso muy común es el contenido duplicado proveniente de descripciones de productos. Si tenemos una tienda online, cuando elaboremos el seo para eccomerce, debemos cuidar este tipo de “errores”. Aunque, aquí la solución más evidente sería hacer uso de una etiqueta “canonical”, antes que bloquear el acceso por robots.
Sin embargo, ten en cuenta que la gente todavía podrá visitar y enlazar a estas páginas, así que si la información es de la que no quieres que los usuarios visiten, necesitarás usar protección con contraseña para mantenerla privada.
Esto se debe a que probablemente hay algunas páginas que contienen información sensible que no quieres que se muestre en las SERPs.
Robots.txt Disallow y Allow
El archivo robots.txt es realmente bastante simple de usar. Básicamente, lo que le estás “diciendo” o “transmitiendo” literalmente a los robots es a qué páginas “Acceder” o “Allow” si nos remitimos a la sintaxis utilizada (lo que significa que las indexará) y a cuáles “No Acceder” o “Disallow” (lo que en teoría hará que las ignore).
Cuidado, no confundir las directrices “Allow” y “Disallow” con las etiquetas “No Index/Index” o “Nofollow/Dofollow”.
Volviendo a “Disallow” o “Allow”, usarás la primera sólo una vez para listar las páginas que no quieres que las arañas rastreen. El comando “Allow” sólo se utiliza cuando quieres que una página sea rastreada, pero su página principal está en “Disallow”.
Ahora os mostraré un ejemplo de robots.txt, en este caso de PCcomponentes:
Mola, ¿Eh?
El comando inicial del “user-agent” les dice a todos los robots web (es decir, *) – no sólo a los de motores de búsqueda específicos – que estas instrucciones se aplican a ellos.
Cómo crear archivo robots.txt, sea WordPress o Prestashop
Antes de nada, para empezar a crear tu archivo robots.txt tendrás que escribir las directivas que quieras o necesite tu web en un archivo de texto (podemos utilizar el “bloc de notas”).
A continuación, sube el archivo de texto al directorio raíz de tu sitio – este debe ser añadido a través de Cpanel o Plesk. En mi caso, utilizo ProfesionalHosting (Muy recomendable) y lo haría a través de Plesk.
Tu archivo robots.txt siempre vendrá justo después del “.com/” en tu URL. El mío, por ejemplo, se encuentra en https: //www.salvaigualada.com /robot.txt.
Si estuviera localizado, por ejemplo, en https:// www. salvaigualada. com/blog/robot.txt, los rastreadores ni siquiera se molestarían en buscarlo y no se seguiría ninguna de sus directrices.
Si tienes subdominios, asegúrate de que también tengan sus propios archivos robots.txt. Por ejemplo, en la anterior imagen que muestro un subdominio que tengo de pruebas3.salvaigualada.com tiene su propio archivo robots.txt con unas directrices diferentes al dominio principal.
Esto es increíblemente importante para comprobar cuando se ejecutan auditorías SEO.
¿Has revisado ya tu archivo con el probador de robots.txt de Google Search Console?
Google ofrece una herramienta gratuita llamada “probador de robots.txt” o “robots testing tool” que puedes utilizar para comprobar tu archivo. Este se puede encontrar en Google Search Console, aquí te dejo el enlace.
Conclusión: Pon el archivo robots.txt a trabajar para mejorar tu SEO
Ahora que ya comprendes que es, cómo crear el archivo robots.txt y la importancia de este elemento SEO, es hora de revisar tu propia web para cerciorarte de que los motores de búsqueda están indexando las páginas que quieres e ignorando aquellas que no quieres que sean mostradas en las SERPs
De cara al futuro, puedes seguir utilizando robots.txt para informar a los motores de búsqueda de cómo deben rastrear tu sitio.
¡Hasta la próxima queridos lectores! ?♂