Cositas sobre los robots.txt

Pinterest

El primer día que oí hablar en SEO de los archivos robots me pensaba que serían otra cosa…mi mente fluyó hacia una mezcla entre R2D2, Bender y los poderosos Transformers. Luego ves que es un archivo .txt y como que te llevas una desilusión. A día de hoy es vital en cualquier estrategia SEO el tener bien definido el uso de este tipo de archivos. Es algo básico pero que no por ello hay que dejar de explicar qué es o cómo se genera. Aquí van algunas pistas básicas sobre este archivo “robots.txt”.

EL ARCHIVO ROBOTS.TXT PASA A LA FAMA

No hay nada mejor para dar a conocer a algo que ocurra un escándalo rosa, amarillo o del color que nos apetezca. Hace unos días leí en twitter que la Casa Real “excluía” a Urdangarín de su web. La verdad  es que no le di demasiada importancia. Pero luego vi un tweet en la que se incluía esto:

robots txt seo

(Esas URL ya no están operativas de todas maneras)

Lo que se pretendía con este tipo de archivos es cerrar el paso a los robots de búsqueda de Google que rastrean la Web, de manera que no sean capaces de encontrar esas páginas pertenecientes a información sobre el susodicho. Es decir, yo pongo “Urdangarin” en Google y esa información no va a aparecer en mis resultados de búsqueda.

Con estos archivos robots.txt vamos a decirle a Google que no queremos que ni rastree ni indexe ese contenido marcado en dicho archivo.

Si pones http://smrevolution.es/robots.txt puedes ver por ejemplo el archivo robots.txt para este blog.

CREAR UN ROBOTS.TXT

Es sencillo, muy sencillo. Y a la vez es importante, muy importante.

Su ubicación será el directorio raíz del dominio y el archivo se llamará “robots” y su extensión “txt”. Cuando se genere hay que tener en cuenta dos puntos principales que son los que conforman el archivo en sí: A quien vamos a dirigir las órdenes expuestas en el archivo y a qué páginas o tipo de archivos vamos a referirnos. Para ello usaremos los dos protagonistas de este párrafo: User – Agent y Disallow. Cada uno irá en una línea.

La línea Disallow indica las páginas que quieres bloquear. Puedes insertar una URL específica, un directorio o un tipo de archivos en concreto. La entrada debe comenzar con una barra inclinada (/).

Para una página concreta:

Disallow: / estaesmientrada.php

Para un directorio y lo que tenemos dentro:

Disallow: /entradasdelblog/

Si se quiere eliminar de las búsquedas un tipo concreto de archivo, fotos en jpg por ejemplo, sería con:

Disallow:/*.jpg

User-agent es el robot de búsqueda al que aplicaremos la regla. Hay varios, así que podemos hacer que se aplique nuestra orden a un robot en concreto o a todos en general. Si queremos que se aplique a todos ponemos un asterisco

User-agent: *

Si queremos aplicar la norma a un bot en concreto tenemos que saber a qué robot queremos afectar. El de las búsquedas web es Googlebot y el de las imágenes Googlebot-Image, pero Google usa más (no hablo del resto de buscadores por eso del monopolio y tal). Si por ejemplo queremos restringir  a las búsquedas en la web pondríamos:

User-agent: Googlebot

Así pues, como ejemplo resumiendo lo anterior, si queremos que para las búsquedas Web no aparezcan los archivos .jpg de mi sitio web se ponen dos filas y se guarda el archivo con extensión txt y nombre robots, se sube a la raíz y listo.

User-agent: Googlebot

Disallow:/*.jpg

robots y SEO

USO DEL ARCHIVO ROBOTS TXT EN SEO

El archivo “robots.txt” es un arma que se puede usar en tu estrategia SEO de muchas formas. Tu estrategia SEO debe marcarte el camino y tú debes decidir usar el robots.txt de una forma u otra.

Una, quizás de la que más he oído hablar, es para evitar contenido duplicado. No es la única ni quizás la mejor opción, pero es una posibilidad.

Si tu contenido está en la entrada original, pero a su vez en alguna subcarpeta o debido a tu plantilla en la categoría aparece de nuevo o has puesto etiquetas y también se genera de nuevo ese contenido – por decir algunas de las miles de posibilidades para tener contenido duplicado – deberás eliminarlo de alguna manera. Yo particularmente no uso el robots.txt para eso pero podrías decirle a Google que no encuentre ese contenido duplicado marcando en el disallow las secciones correspondientes.

Otra opción de uso es si tu tienes un contenido interesante y de calidad pero por razones X debes mantener en tu web 256355 páginas relativas a la vida del máximo mandatario de la marca, porque si, porque él quiere y él paga y no hay forma de que cedea. O 256355 páginas hablando sobre algo que te obliga a poner la marca si o si pero que sabes que no tiene valor para el usuario.

Bien, las puedes tener ahí visibles, para que quien entre las vea, pero si Google va a tu sitio va a ver todo eso y podría ser más interesante que a esa morralla no tuviera acceso y de esta forma darle más importancia al resto, al contenido válido.

Eso es una forma de hacer SEO. Darle más fuerza a lo que realmente te interesa que Google rastree, facilitar que se centre en eso. Pero ojo, ten cuidado y se responsable con lo que haces, sigue una idea clara desde el principio y no hagas cambios bruscos de golpe, Google lo va a notar y créeme, no le gustan nada…

(la fantástica foto de la evolución del robot es de la página www.paranoias.es)

anobium

Soy un profesional del Marketing aprendiendo y compartiendo día a día en esto de las redes sociales.
Actualmente trabajo en proyectos de Marketing Online en la empresa Anobium perteneciente a la Fundación Picarral, entidad sin ánimo de lucro donde se trabaja por la igualdad de oportunidades de todas las personas para prevenir la exclusión social, mediante la formación y la inserción sociolaboral.
Creo que Internet no es el futuro, es el presente. Y que la cadena alimentaria ha pasado hace tiempo de ser perro – gato – ratón a Objetivo – Estrategia – Contenido – Análisis.
En Twitter me puedes encontrar como @davedavidus
Cuando tengo un rato escribo sobre redes sociales en mi blog personal www.elarea51.es
También soy Mago e Ilusionista en mi tiempo libre :)

David Gómez (24 Posts)

Soy un profesional del Marketing aprendiendo y compartiendo día a día en esto de las redes sociales. Actualmente trabajo en proyectos de Marketing Online en la empresa Anobium perteneciente a la Fundación Picarral, entidad sin ánimo de lucro donde se trabaja por la igualdad de oportunidades de todas las personas para prevenir la exclusión social, mediante la formación y la inserción sociolaboral. Creo que Internet no es el futuro, es el presente. Y que la cadena alimentaria ha pasado hace tiempo de ser perro - gato - ratón a Objetivo - Estrategia - Contenido - Análisis. En Twitter me puedes encontrar como @davedavidus Cuando tengo un rato escribo sobre redes sociales en mi blog personal www.elarea51.es También soy Mago e Ilusionista en mi tiempo libre :)


Más sobre Social Media: