
Como Evitar El Contenido Duplicado Utilizando El Robots.txt
Publicado por Rafael Coutinho en 31 de Julio 2009| Categoría:SEOHola lectores de la Maestro de SEO! Hoy hablaré sobre el robots.txt, citando varios ejemplos para que todo el mundo entienda perfectamente su funcionamiento. Pero antes de eso, hablaremos un poco sobre la importancia y las reglas para el robots.txt.
El robots.txt es un importante aliado en la “guerra” contra el contenido duplicado, por eso, su importancia en la optimización para motores de búsqueda (SEO) es inmensa
Sólo hay un robots.txt para cada sitio y este debe estar en el directorio raíz. Si hubiera otro archivo robots.txt en cualquier otro directorio, este no será ingresado. En las empresas grandes esto puede ser una grande desventaja, pues cuando una empresa es dividida en sectores, no todos los operarios tienen acceso al directorio raíz del sitio. En este caso, en vez del robots.txt, es recomendado el uso de las meta tags para bloquear las URL´s.
El robotos.txt es especialmente útil cuando necesitamos “eliminar” directorios enteros de un sitio o cuando se quiere excluir muchas URL´s que comienzan con los mismos caracteres.
Es importante resaltar que el robots.txt no es una forma de seguridad, este apenas impide que el crawler lea el contenido especificado, sin embargo no barre a los usuarios, y además de eso, puede ser ingresado por cualquier usuario.
Ahora que ya sabemos la importancia del robots.txt en la optimización para motores de búsqueda (SEO), vamos a entender como es su funcionamiento:
Para deshabilitar un directorio utilizamos el mando Disallow: /directory. Para comentarios utilizamos # y para bloquear un crawler específico, colocamos el User-agent: <nombre del bot>
Bloqueando todos los bots
User-agent: *
Disallow: /
Deshabilitando el googlebot para un directorio
Deshabilitando el googlebot para indexar cualquier cosa que comience con /directory
User-agent: googlebot
Disallow: /directory
Deshabilitando un conjunto de archivos con nombres semejantes
Podemos también deshabilitar los archivos específicos, utilizando las reglas de expresiones regulares, como por ejemplo: ^<sua string>.*$
Por ejemplo, deshabilitar todos los archivos que contengan print=cualquier lugar:
User-agent: googlebot
Disallow: /*print=
Deshabilitando más de una URL para más de un bot
Cuando queremos deshabilitar más de una URL para más de un bot, tenemos que colocar el nombre de los user-agents antes del disallow .
User-agent: googlebot
User-agent: msnbot
Disallow: /directory
Disallow: /file.html
Deshabilitando reglas específicas para diferentes Motores de Búsqueda
Deshabilitando reglas específicas (X,Y) para los demás spiders y Z para el googlebot
User-agent: *
Disallow: X
Disallow: Y
User-agent: googlebot
Disallow: Z
Liberando el ingreso para un bot solamente
En este ejemplo, usted sólo dará ingreso al google bot para ingresar su sitio, ya que, la regla de arriba sobrescribe la de bajo.
User-agent: googlebot
Disallow:
User-agent: *
Disallow: /
Espero que les haya gustado! Si necesitar de una optimización de sitios hable con nosotros, o si sólo quisiera saber más sobre la optimización para motores de búsqueda (SEO), lea nuestra tutoría de la Maestro de SEO y términos de SEO. Hasta la próxima!
Sugerimos la lectura de estos otros artículos...
- Tutoría de robots.txt
- Robots.txt: 4 Cosas Que Usted Debe Saber
- Robots.txt y Algunas Pistas para Word Press
- Como Intercambiar Su User-Agent Para Googlebot
- Sitio en Construcción, sitio en Reforma? Y ahora?






29 de Septiembre de 2009 às 4:50 pm
[...] público un artículo de cómo evitar el contenido duplicado con el robots.txt con ejemplos de su gramática, esto vale la pena estudiarlo. Aprenda a utilizar el Google [...]