
Tutoría de robots.txt
Publicado por Heron Inouye en 17 de Septiembre 2009| Categoría:Robots txtHola. Hoy expondré una tutoría sobre el robots.txt para ayudarlos en la optimización de sitios.
Como Crear un Archivo robots.txt
Usted puede crear un robots.txt en cualquier editor de texto, pero existen varios generadores que usted puede encontrar en el sitio. Google ofrece esta herramienta en el Google Webmasters Tools.
Analizando el robots.txt
En el Google Webmaster Central, existe una herramienta de análisis muy eficiente, que muestra los errores que el crawler encontró durante el análisis de su sitio. Para más detalles los pueden encontrar en mi artículo de optimización de sitios usando el Google webmaster tools.
Ejemplos de Formacion del robots.txt
Permite que todos los archivos sean indexados
User-agent: *
Disallow:
No permite que ningun archivo sea indexado
User-agent: *
Disallow: /
No permite que una carpeta sea indexada, con excepción del archivo myfile.html que está dentro de la carpeta
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/myfile.html
Información Contenida en el robots.txt
Los motores búsqueda son destructivos por estándar. Ellos quieren indexar el máximo de información de calidad que consigan, y presumen que pueden indexar todo, a menos que alguien los haga parar.
Si usted especifica datos para todos los bots (*) y datos para bots específicos (como el Googlebot), sucede que los mandos específicos para bots serán seguidos mientras el Bot. especificado (en nuestro ejemplo el Googlebot) irá a ignorar los mandos globales. Luego, si usted hace un mando global porque quiera aplicar para un bot específico, entonces usted deberá colocar el mando para el bot específico también.

Cuando usted bloquea la URLs para que ellas no sean indexadas en Google por el robots.txt, Google puede todavía mostrar estas URLs en los resultados de las investigaciones. Una solución más completa es bloquearlas usando las meta tags:
- <meta name=”robots” content=”noindex”>
- <meta name=”robots” content=”noindex,nofollow”>
Si usted no tiene un archivo robots.txt, los logs de los servidores irán a retornar como errores 404 siempre que un bot intente acceder al archivo. Usted puede hacer upload del archivo en blanco con el nombre robots.txt en la carpeta raíz de su sitio.
Algunos motores búsqueda también permiten que usted especifique la dirección de una sitemap XML en el archivo robots.txt.
Caracteres Especiales
Google, Yahoo! y MSN permiten el uso de caracteres especiales en el archivo robots.txt.
Para bloquear el acceso a todas las URLs que incluyen una interrogación (? – URLs con parámetros vía GET), usted debe usar el siguiente código:
User-agent: *
Disallow: /*?
Usted también puede especificar los archivos con determinadas extensiones usando el signo monetario ($). Por ejemplo: si usted quiere bloquear todas las páginas con extensión .asp, coloque en el robots.txt :
User-agent: Googlebot
Disallow: /*.asp$
Excentricidades
Sabemos que Google viene “llenando” formularios de investigaciones e indexando las páginas generadas. Para evitar que tales páginas sean indexadas, bloquee por el robots.txt. Suponga que la variable de investigación en la URL sea “search”. Entonces usted realizar esto:
User-agent: *
Disallow: /?search=
Para evitar que las páginas generadas por investigación sean generadas.
Analizando el Robots.txt
En el Google Webmaster Central, existe una herramienta de análisis muy eficiente, que muestra los errores que el crawler encontró durante el análisis de su sitio. Mas detalles pueden ser encontrados en mi articulo de optimizacion de sitios usando el Google Webmaster Tools
Conclusiones
El uso del robots.txt es una importante técnica de control de la indexacion de su sitio y es uno de los primeros items para verificarse cuando se realiza una consultoria de SEO. Entonces este pendientey no se olvide de verificar su robots.txt.
Sugerimos la lectura de estos otros artículos...
- Como Evitar El Contenido Duplicado Utilizando El Robots.txt
- Robots.txt: 4 Cosas Que Usted Debe Saber
- Robots.txt y Algunas Pistas para Word Press
- Como Intercambiar Su User-Agent Para Googlebot
- Optimizando el Sitio con Google Webmaster Tools Parte Final






16 de Octubre de 2009 às 4:21 pm
[...] Hola lectores del blog de la MaestrodeSeo, la semana pasada estuvimos en el SMX Brasil realizada en la ciudad de Sao Paulo, quiero dejar acá un abrazo a todas las personas que conocí allí y por las cuales están leyendo este artículo, siguiendo la línea un poco del evento, hoy vamos a dar 4 pistas BÁSICAS, o 4 cosas que usted debe saber al respecto del robots.txt. [...]