Un detector de la unidad central de un texto basado en técnicas de aprendizaje automático en textos científicos para el euskera

En este articulo presentamos el primer detector de la Unidad Central (UC) de resumenes cientificos en euskera basado en tecnicas de aprendizaje automatico. Despues de segmentar el texto en unidades de discurso elementales, la deteccion de la unidad central es crucial para anotar de forma mas fiable la estructura relacional de textos bajo la Teoria de la Estructura Retorica o Rhetorical Structure Theory (RST). Ademas, la unidad central puede ser explotada en diversas tareas como resumen automatico, tareas de pregunta y respuesta o analisis del sentimiento. Los resultados obtenidos demuestran que las tecnicas de aprendizaje automatico superan a las tecnicas basadas en reglas a pesar del pequeno tamano del corpus y de la heterogeneidad de los dominios que este muestra, dejando todavia lugar para mejoras y desarrollo.