Knowledge-poor Approach to Constructing Word Frequency Lists, with Example from Romance Languages

Las listas de palabras con sus frecuencias se usan ampliamente en muchos procedimientos de agrupamiento y categorizacion de textos. Usualmente para la compilacion de tales listas se usan las aproximaciones basadas en morfologia (como el stemmer de Porter) para unir las palabras con el mismo significado. Desafortunadamente, tales aproximaciones requieren de muchos recursos linguisticos dependientes de lenguaje cuando se trabaja con datos multilingues y colecciones multitematicas de documentos. En este articulo se proponen dos procedimientos basados en formulas empiricas de similitud entre palabras. Un simple ajuste de los parametros de las formulas permita su adecuacion a diferentes lenguajes europeos. Se demuestra la aplicacion de las formulas con ejemplos reales del frances, italiano, portugues y espanol.