Extracção de relações semânticas: recursos, ferramentas e estratégias

La presente tesis se situa en el area del Procesamiento del Lenguaje Natural (PLN), cuyo objetivo es implementar mecanismos de interaccion en lengua natural entre seres humanos y maquinas (Jurafsky e Martin, 2009). Concretamente, el proyecto combina diferentes tecnicas de PLN para la Extraccion de Relaciones (ER) semanticas. La ER es una subarea de la extraccion de informacion que consiste en la obtencion automatica de pares de palabras relacionadas semanticamente (Banko e Etzioni, 2008). Por ejemplo, de la oracion ?Sergey Brin y Larry Page fundaron la empresa Google en 1996?, un sistema de ER podria obtener el siguiente conocimiento estructurado: ? Fundador(Sergey Brin, Google) ? Fundador(Larry Page, Google) ? FechaFundacion(Google, 1996) Una vez obtenido, este conocimiento puede ser organizado en formatos accesibles para los ordenadores, y ser utilizado en diferentes aplicaciones, como la recuperacion de informacion (Wan et. al, 2005) o sistemas de respuesta a preguntas (Mann, 2002). Los sistemas de ER se aplican, de modo general, sobre la salida de herramientas de PLN, como etiquetadores morfosintacticos o reconocedores de entidades con nombre. (Padro, 2012). Como este tipo de herramientas no esta siempre disponible de modo libre, este proyecto tambien tiene en cuenta la adaptacion e implementacion de diferentes modulos necesarios para la construccion de sistemas de extraccion de relaciones semanticas. La tesis tiene como objetivo implementar y evaluar diferentes estrategias para la extraccion automatica de relaciones semanticas (de dominio biografico) en portugues, espanol y gallego Para conseguir este objetivo, se asume que sera necesaria la adaptacion y/o creacion de diferentes herramientas de PLN para alguna(s) de las lenguas referidas. Teniendo en cuenta las necesidades de los sistemas de ER y la escasez de recursos para portugues, espanol y gallego, se pretende, por un lado, conseguir un conjunto de corpus y lexicos con diferentes niveles de anotacion linguistica, utiles tanto para construir sistemas de aprendizaje automatico como para evaluar herramientas basadas en reglas de caracter linguistico. Por otro lado, el propio diseno de herramientas para las diferentes tareas del PLN tambien sera preciso para la implementacion de los sistemas de ER. En esta tesis se considera necesaria la combinacion de metodologias de base simbolica con el uso de tecnicas estadisticas que permitan desenvolver herramientas de modo rapido y eficaz. En relacion a las estrategias de ER, se pretende implementar y evaluar sistemas basados en reglas y patrones lexico-sintacticos y clasificadores supervisados que necesiten corpus de aprendizaje para la creacion de modelos estadisticos. Sobre los diferentes modulos de PLN necesarios para la ER, se considera que, cuando sea posible, la mejor opcion sera la adaptacion de herramientas libres que tengan resultados proximos al estado del arte. En el caso de que no existan, se intentara desarrollar sistemas, simbolicos o estadisticos, que puedan analizar las lenguas objeto de estudio con alta precision.