Clasificación de textos académicos en función de su contenido léxico-semántico

El objetivo de esta investigacion es clasificar, utilizando y comparando dos metodos de categorizacion automatica, los textos academicos incluidos en el Corpus PUCV-2006 perteneciente al trabajo realizado en el proyecto Fondecyt 1060440. Estos metodos estan basados en los lexemas de contenido semantico compartidos en el corpus de textos academicos usados en cuatro carreras profesionales de la Pontificia Universidad Catolica de Valparaiso, Chile. El corpus PUCV-2006 actualmente esta conformado por 652 textos, los que en cantidad total de palabras alcanza a 96.288.874. Para los propositos de esta investigacion, utilizamos una muestra de 216 textos (30.886.081 palabras) divididos en cuatro areas disciplinares: 26 usados en Ingenieria en Construccion, 31 en Quimica, 64 en Trabajo Social y 95 en Psicologia. Los metodos de clasificacion a comparar en esta investigacion son Bayes Ingenuo y Maquina de Soporte de Vectores, ambos metodos permiten identificar un pequeno grupo de lexemas compartidos, que una vez pesados estadisticamente, sirven para clasificar un nuevo texto en alguna de las cuatro areas disciplinares. Los resultados nos permiten establecer que la Maquina de Soporte de Vectores clasifica mas eficientemente los textos academicos, con altos valores de precision y exhaustividad. Con este metodo podemos identificar automaticamente el dominio disciplinar de un nuevo texto academico en consulta con un alto porcentaje de exactitud (93,9%). Proyectamos usar este metodo como parte de un analisis multidimensional mas acabado del Corpus PUCV-2006

[1]  Chih-Jen Lin,et al.  A Practical Guide to Support Vector Classication , 2008 .

[2]  Yiming Yang,et al.  A Comparative Study on Feature Selection in Text Categorization , 1997, ICML.

[3]  Maurizio Gotti Specialized discourse : linguistic features and changing conventions , 2003 .

[4]  Dallas Johnson,et al.  Métodos multivariados aplicados al análisis de datos , 2000 .

[5]  Gerard Salton,et al.  Term-Weighting Approaches in Automatic Text Retrieval , 1988, Inf. Process. Manag..

[6]  Giovanni Parodi Discurso especializado y lengua escrita: foco y variación , 2006 .

[7]  Hinrich Schütze,et al.  Book Reviews: Foundations of Statistical Natural Language Processing , 1999, CL.

[8]  Carlos G. Figuerola La investigación sobre recuperación de la información en español , 2000 .

[9]  Hartmut Schröder Linguistic and Text-theoretical Research on Languages for Special Purposes. A thematic and bibliographical guide , 1991 .

[10]  Richard O. Duda,et al.  Pattern classification and scene analysis , 1974, A Wiley-Interscience publication.

[11]  Thomas K. Landauer,et al.  On the computational basis of learning and cognition: Arguments from LSA , 2002 .

[12]  G. Ciapuscio Hacia una tipología del discurso especializado , 2000 .

[13]  Michael McGill,et al.  Introduction to Modern Information Retrieval , 1983 .

[14]  Corinna Cortes,et al.  Support-Vector Networks , 1995, Machine Learning.

[15]  C. Ferrero Aproximación al análisis de los discursos profesionales , 2002 .

[16]  James H. Martin,et al.  Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition , 2000 .

[17]  Jesús Figueroa-Nazuno,et al.  Predicción de Múltiples Puntos de Series de Tiempo Utilizando Support Vector Machines , 2004, Computación y Sistemas.

[18]  Jeannett Martin,et al.  Writing Science: Literacy And Discursive Power , 1993 .

[19]  René Venegas La similitud léxico-semántica en artículos de investigación científica en español: una aproximación desde el análisis semántico latente , 2006 .

[20]  Gerard Salton,et al.  Automatic Information Organization And Retrieval , 1968 .

[21]  Subhash Sharma Applied multivariate techniques , 1995 .

[22]  María Teresa Cabré Textos especializados y unidades de conocimiento: metodología y tipologización , 2002 .

[23]  Giovanni Parodi Textos de especialidad y comunidades discursivas técnico-profesionales: una aproximación basada en corpus computarizado , 2004 .

[24]  S. GiovanniParodi,et al.  Bucólico: aplicación computacional para el análisis de textos (hacia un análisis de rasgos de la informatividad) , 2004 .

[25]  Carlos García-Figuerola Paniagua La investigación sobre recuperación de la información en español , 2000 .

[26]  Pierre Baldi,et al.  Modeling the Internet and the Web: Probabilistic Method and Algorithms , 2002 .

[27]  Vladimir N. Vapnik,et al.  The Nature of Statistical Learning Theory , 2000, Statistics for Engineering and Information Science.

[28]  Gustavo A. Betancourt,et al.  LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs) , 2005 .

[29]  Giovanni Parodi,et al.  El discurso escrito y especializado: caracterización y funciones de las nominalizaciones en los manuales técnicos , 2006 .

[30]  Nello Cristianini,et al.  An Introduction to Support Vector Machines and Other Kernel-based Learning Methods , 2000 .

[31]  Donna K. Harman,et al.  Relevance Feedback and Other Query Modification Techniques , 1992, Information retrieval (Boston).

[32]  Luis Alfonso Ureña López,et al.  LVQ for text categorization using a multilingual linguistic resource , 2003, Neurocomputing.

[33]  Giovanni Parodi El discurso especializado escrito en el ámbito universitario y profesional: Constitución de un corpus de estudio , 2007 .