Stop Words – Como Funcionan las Palabras de Parada?

1 comentario
Email This Post Email This Post

Primero la definición:

Stop words (o palabras de parada – traducción libre) son palabras que pueden ser consideradas irrelevantes para el conjunto de resultados a ser exhibidos en una búsqueda realizada en un motor de búsqueda o search engine. Ejemplos: las, y, los, de, para, con, sin, fue.

Claro que, irrelevantes, depende de la búsqueda realizada, pues el contexto de la búsqueda hará toda la diferencia para cada palabra usada en la investigación realizada.

Pero porque estoy hablando de este tema? Porque muchas personas que buscan hacer alguna optimización para motores de búsqueda (SEO) acaban preguntándose sobre la relevancia de utilizar stop words en su contenido: títulos, meta description, meta keywords y en el contenido propiamente.

Antes de proseguir, es importante entender como los motores de búsqueda o search engines trabajan las palabras de una frase: dada una frase, el motor de búsqueda o search engine la quiebra en tokens, siendo cada token un subconjunto formado por las palabras de esa frase. Nathalia describió como funciona este proceso en un artículo aquí en la MaestrodeSEO sobre como los search engines tratan el texto ancla. El ejemplo fue:

Supongamos que el search engine o motor de búsqueda encuentra un link con texto ancla “Diez Pistas Rápidas”. Convirtiendo en tokens:

· “Diez Pistas Rápidas”
· “Diez”
· “Pistas”
· “Rápidas”
· “Pistas Rápidas”
· “Diez Pistas”
· “Diez Rápidas”

Entendiendo como son tratadas las frases en investigaciones, vamos para el tratamiento de stop words y como los search engines o motores de búsqueda identifican los posibles stop words.

Stop Words – Como Google los Identifica?

Encontré un post “antiguo” (agosto/08) en el sitio SEObytheSEA que reportaba una patente de Google sobre como su search engine o el motor de búsqueda puede trabajar para identificar las stop words de acuerdo con la investigación realizada, y esta funciona de la siguiente manera:

· Para una búsqueda dada, esta es quebrada en tokens y son montados conjuntos de resultados para tokens conteniendo las posibles stop words y sin las posibles stop word; los resultados obtenidos en los conjuntos son comparados, su similitud definida y las posibles stop words identificadas:

Stop Words - Como Funcionan las Palabras de Parada

Se complicó? Vamos a ver un ejemplo: al realizar la búsqueda “Los otros” en Google, el conjunto de los 10 primeros resultados es compuesto de:

· 4, entre los 7 primeros resultados, sobre la película “Los Otros”
· 3 resultados de música
· 3 resultados de literatura

Por otro lado, la búsqueda por “otros“, retorna en su conjunto de 10 primeros resultados:

· 2 resultados sobre música
· 2 resultados de vídeos (pe. Fabio de Melo y Kid Abelha)
· Google Maps
· 1 sobre la película
· 5 resultados más diversos

O sea, el artículo definido “los”, en este caso, es totalmente relevante para el conjunto de los resultados presentados. Por otro lado, comparando el conjunto de resultados de la búsqueda “las perlas de la internet” (1) contra el conjunto de “perlas de la internet” (2), se nota que 7 de los 10 primeros resultados en (1) están entre los 10 primeros en (2).- una similitud de 70%. El articulo definido “las” puede ser tratado como una stop word.

Conclusión

De hecho, la patente de Google tiene sentido y puede ser que esté realmente siendo usada, o, tal vez, una versión bien próxima de esta patente garantizada el año pasado a Google. Para saber si un término puede ser considerado o no como stop word, es realmente necesario hacer la prueba y evaluar el resultado.

Pero tenis siempre en mente que el uso adecuado de stop words también influencia la decisión de hacer clic del usuario. Frases apenas escritas pueden aumentar el rechazo del usuario, tal como lo comenté en mi artículo sobre optimización de palabras escritas de forma errada.

En los ejemplos de este artículo, yo probé solamente los primeros 10 resultados de 2 tokens, Google puede probar mucho más y definir el grado de similitud ( 70%, 30%, 90%) cómo le parezca más apropiado, pero las pruebas se muestran bien concluyentes.

Que encuentra usted? Cuál es su experiencia con stop words? Deje su recado en los comentarios, hasta la próxima!

Adicionar artigo ao Rec6 Adicionar artigo ao Linkk Adicionar artigo ao doMelhor Adicionar artigo ao Eu Curti Adicionar artigo ao del.icio.us

Sugerimos la lectura de estos otros artículos...

1 Respuesta a este post

Firme los comentarios de este artculo oRSS de comentário o TrackBack URL
  1. Optimización de Imágenes: Cual es el Mejor Camino a Seguir? | Blog Maestro de SEO disse,

    [...] en producir un texto corto y coherente con el contenido presentado, ademas  de evitar el uso de stop words (para, de, con, [...]

Deje un Comentario

Nota: La moderación de comentarios puede estar activada, entonces no hay necesidad de reenviar su comentario.