Tutoría de robots.txt

1 comentario
Email This Post Email This Post

Hola. Hoy expondré una tutoría sobre el robots.txt para ayudarlos en la optimización de sitios.

Como Crear un Archivo robots.txt

Usted puede crear un robots.txt en cualquier editor de texto, pero existen varios generadores que usted puede encontrar en el sitio. Google ofrece esta herramienta en el Google Webmasters Tools.


Analizando el robots.txt

En el Google Webmaster Central, existe una herramienta de análisis muy eficiente, que muestra los errores que el crawler encontró durante el análisis de su sitio. Para más detalles los pueden encontrar en mi artículo de optimización de sitios usando el Google webmaster tools.

Ejemplos de Formacion del robots.txt

Permite que todos los  archivos sean indexados

User-agent: *
Disallow:

No permite que ningun archivo sea indexado

User-agent: *
Disallow: /

No permite que una carpeta sea indexada, con excepción del archivo myfile.html que está dentro de la carpeta

User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/myfile.html

Información Contenida en el robots.txt

Los motores búsqueda son destructivos por estándar. Ellos quieren indexar el máximo de información de calidad que consigan, y presumen que pueden indexar todo, a menos que alguien los haga parar.

Si usted especifica datos para todos los bots (*) y datos para bots específicos (como el Googlebot), sucede que los mandos específicos para bots serán seguidos mientras el Bot. especificado (en nuestro ejemplo el Googlebot) irá a ignorar los mandos globales. Luego, si usted hace un mando global porque quiera aplicar para un bot específico, entonces usted deberá colocar el mando para el bot específico también.

Cuando usted bloquea la URLs para que ellas no sean indexadas en Google por el robots.txt, Google puede todavía mostrar estas URLs en los resultados de las investigaciones. Una solución más completa es bloquearlas usando las meta tags:

  • <meta name=”robots” content=”noindex”>
  • <meta name=”robots” content=”noindex,nofollow”>

Si usted no tiene un archivo robots.txt, los logs de los servidores irán a retornar como errores 404 siempre que un bot intente acceder al archivo. Usted puede hacer upload del archivo en blanco con el nombre robots.txt en la carpeta raíz de su sitio.

Algunos motores búsqueda también permiten que usted especifique la dirección de una sitemap XML en el archivo robots.txt.

Caracteres Especiales

Google, Yahoo! y MSN permiten el uso de caracteres especiales en el archivo robots.txt.
Para bloquear el acceso a todas las URLs que incluyen una interrogación (? – URLs con parámetros vía GET), usted debe usar el siguiente código:

User-agent: *
Disallow: /*?

Usted también puede especificar los archivos con determinadas extensiones usando el signo monetario ($). Por ejemplo: si usted quiere bloquear todas las páginas con extensión .asp, coloque en el robots.txt :

User-agent: Googlebot
Disallow: /*.asp$

Excentricidades

Sabemos que Google viene “llenando” formularios de investigaciones e indexando las páginas generadas. Para evitar que tales páginas sean indexadas, bloquee por el robots.txt. Suponga que la variable de investigación en la URL sea “search”. Entonces usted realizar esto:

User-agent: *
Disallow: /?search=

Para evitar que las páginas generadas por investigación sean generadas.

Analizando el Robots.txt
En el Google Webmaster Central, existe una herramienta de análisis muy eficiente, que muestra los errores que el crawler encontró durante el análisis de su sitio. Mas detalles pueden ser encontrados en mi articulo de optimizacion de sitios usando el Google Webmaster Tools

Conclusiones
El uso del robots.txt es una importante técnica de control de la indexacion de su sitio y es uno de los primeros items para verificarse cuando se realiza una consultoria de SEO. Entonces este pendientey no se olvide de verificar su robots.txt.

Adicionar artigo ao Rec6 Adicionar artigo ao Linkk Adicionar artigo ao doMelhor Adicionar artigo ao Eu Curti Adicionar artigo ao del.icio.us

Sugerimos la lectura de estos otros artículos...

1 Respuesta a este post

Firme los comentarios de este artculo oRSS de comentário o TrackBack URL
  1. Robots.txt: 4 Cosas Que Usted Debe Saber | Blog Maestro de SEO disse,

    [...] Hola lectores del blog de la MaestrodeSeo, la semana pasada estuvimos en el SMX Brasil realizada en la ciudad de Sao Paulo, quiero dejar acá un abrazo a todas las personas que conocí allí y por las cuales están leyendo este artículo, siguiendo la línea un poco del evento, hoy vamos a dar 4 pistas BÁSICAS, o 4 cosas que usted debe saber al respecto del robots.txt. [...]

Deje un Comentario

Nota: La moderación de comentarios puede estar activada, entonces no hay necesidad de reenviar su comentario.