Integrando una base de datos léxica y una colección de entrenamiento para la desambiguación del sentido de las palabras

La resolucion de la ambiguedad es una tarea compleja y util para muchas aplicaciones del procesamiento del lenguaje natural. En concreto, la ambiguedad causa problemas en aplicaciones como: la Recuperacion de Informacion (IR), donde los problemas pueden ser substanciales y ser superados si se utilizan grandes consultas, y la traduccion automatica, donde es un gran problema inherente. Recientemente han sido varios los enfoques y algoritmos propuestos para realizar esta tarea. Presentamos un nuevo enfoque basado en la integracion de varios recursos linguisticos de dominio publico, como una base de datos lexica y una coleccion de entrenamiento. Nuestro enfoque integra la informacion de sinonimia de WordNet y la coleccion de entrenamiento SemCor para incrementar la efectividad de la desambiguacion, a traves del Modelo del Espacio Vectorial. Hemos probado nuestro enfoque sobre un gran conjunto de documentos con una fina granularidad de sentidos, como son los de WordNet, consiguiendo una alta precision en la resolucion de la ambiguedad lexica.