sábado, 18 de septiembre de 2010

Palabras Claves con Wordle





Acabo de hacer esta imagen de palabras claves que ocurren en mi blog, con mensajes de 2010 solamente.
[los temas principales fueron: Japón, economía, periodismo, y música]

¿Cómo la hice?
* Copié todos los textos de mi blog desde Enero de 2010 hasta la fecha;
* pegué el texto en un editor de texto;
* removí las palabras comunes que no son interesantes (pronombres, artículos, preposiciones, adjetivos, adverbios, algunos verbos, números, etc);
* pegué el texto sobrante en www.wordle.net;
* resulta una imagen que uno puede configurar con tipo de letra, colores, etc

Esta es una técnica que se usa en internet para analizar la frecuencia de palabras, (pues las palabras más usadas aparecen más grandes) y así darnos una idea de la tendencia de los temas sobre los que alguien escribe. Este tipo de análisis cae dentro de una rama de la computación llamada "text data mining".

La misma cosa se puede hacer con sitios públicos en internet, o con el texto de libros, o de resultados de búsquedas por Google.

Aquí está el diagrama Wordle con las palabras claves de este blog en el año 2009:
[los temas principales fueron: ciencia, historia, y música]


Aquí está el diagrama Wordle con las palabras claves del año 2008:
[los temas principales fueron: tecnología, arte, libros, y música]




Referencias:

wordle.net
"Data mining", en la wikipedia
"Text mining", en la wikipedia

 
 

2 comentarios:

Unknown dijo...

Interesante, caracteriza tu pensamiento

Diego F Guillen-Nakamura dijo...

Hola Esteban,

Gracias por tu comentario.

Desafortunadamente, las verdaderas palabras claves no salen, porque no ocurren tan frecuentemente. Palabras tales como nano-tecnologia, genetica, astronomia, neuro-ciencia, que fueron tema de muchas de mis notas, no aparecen por ningun lado.

De todas formas la idea era compartirles una tecnologia mas, para saber que esta ahi, y para invitar a otros a explorar ese tema.

En "text data mining" se hacen analisis mas complejos, con estadisticas, y tambien calculando las distancias entre las palabras, etc. Pero las cosas mas avanzadas estan fuera del alcance de este blog.

Saludos, DG