Método híbrido para categorización de texto basado en aprendizaje y reglas

En este articulo se presenta un nuevo metodo hibrido de categorizacion automatica de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificacion sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse anadiendo reglas especificas para aquellas categorias dificiles que no se han entrenado de forma satisfactoria. Se describe una implementacion realizada mediante el algoritmo kNN y un lenguaje basico de reglas basado en listas de terminos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparacion con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precision y cobertura comparables con las de los mejores metodos del estado del arte.