论文信息 - Knowledge-poor Approach to Constructing Word Frequency Lists, with Example from Romance Languages

Knowledge-poor Approach to Constructing Word Frequency Lists, with Example from Romance Languages

Las listas de palabras con sus frecuencias se usan ampliamente en muchos procedimientos de agrupamiento y categorizacion de textos. Usualmente para la compilacion de tales listas se usan las aproximaciones basadas en morfologia (como el stemmer de Porter) para unir las palabras con el mismo significado. Desafortunadamente, tales aproximaciones requieren de muchos recursos linguisticos dependientes de lenguaje cuando se trabaja con datos multilingues y colecciones multitematicas de documentos. En este articulo se proponen dos procedimientos basados en formulas empiricas de similitud entre palabras. Un simple ajuste de los parametros de las formulas permita su adecuacion a diferentes lenguajes europeos. Se demuestra la aplicacion de las formulas con ejemplos reales del frances, italiano, portugues y espanol.

Alexander F. Gelbukh | Pavel Makagonov | Mikhail Alexandrov | Xavier Blanco

[1] Pavel Makagonov,et al. Empirical Formula for Testing Word Similarity and Its Application for Constructing a Word Frequency List , 2002, CICLing.

[2] Pavel Makagonov,et al. Testing Word Similarity: Language Independent Approach with Examples from Romance , 2004, NLDB.

[3] Alexander F. Gelbukh. Exact and Approximate Prefix Search under Access Locality Requirements for Morphological Analysis and Spelling Correction , 2003, Computación y Sistemas.

[4] Alexander F. Gelbukh,et al. Approach to Construction of Automatic Morphological Analysis Systems for Inflective Languages with Little Effort , 2003, CICLing.

[5] Martin F. Porter,et al. An algorithm for suffix stripping , 1997, Program.