Algunas Técnicas de Clasificación Automática de Documentos

La idea de clasificacion es bien conocida por quienes se dedican a la documentacion. Sin entrar en disquisiciones formales, se trata de organizar los documentos en alguna forma que permita despues su mejor recuperacion. En torno a ello se han elaborado diversas tecnicas, que se han aplicado con mejor o peor fortuna. Con la creciente disponibilidad de documentos en formato electronico, susceptibles, por consiguiente, de ser procesados de manera automatica, surge la posibilidad de abordar la clasificacion de documentos de manera automatica. Este trabajo describe algunas de las tecnicas y algoritmos aplicables en clasificacion automatica, los conceptos basicos en que se basan tales algoritmos, asi como los instrumentos necesarios para aplicarlos. Del mismo modo, en la medida en que tales tecnicas y algoritmos hayan sido aplicados, se ofrece una estimacion del alcance y posibilidades de cada uno de ellos.

[1]  Gerald Kowalski,et al.  Information Retrieval Systems: Theory and Implementation , 1997 .

[2]  L. A. Goodman,et al.  Measures of Association for Cross Classifications. II: Further Discussion and References , 1959 .

[3]  Yiming Yang,et al.  An Evaluation of Statistical Approaches to Text Categorization , 1999, Information Retrieval.

[4]  Timo Honkela,et al.  WEBSOM - Self-organizing maps of document collections , 1998, Neurocomputing.

[5]  Gary Marchionini,et al.  A self-organizing semantic map for information retrieval , 1991, SIGIR '91.

[6]  M. E. Maron,et al.  Automatic Indexing: An Experimental Inquiry , 1961, JACM.

[7]  Samuel Kaski,et al.  Self organization of a massive document collection , 2000, IEEE Trans. Neural Networks Learn. Syst..

[8]  Thorsten Joachims,et al.  A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization , 1997, ICML.

[9]  J A Swets,et al.  Information Retrieval Systems. , 1963, Science.

[10]  Ángel F. Zazo Rodríguez,et al.  Automatic vs manual categorisation of documents in Spanish , 2001, J. Documentation.

[11]  Chris Buckley,et al.  OHSUMED: an interactive retrieval evaluation and new large test collection for research , 1994, SIGIR '94.

[12]  Marie-Francine Moens,et al.  Automatic Categorization of Magazine Articles , 1999 .

[13]  Hinrich Schütze,et al.  A comparison of classifiers and document representations for the routing problem , 1995, SIGIR '95.

[14]  J. J. Rocchio,et al.  Relevance feedback in information retrieval , 1971 .

[15]  L. A. Goodman,et al.  Measures of association for cross classifications , 1979 .

[16]  Chaomei Chen,et al.  Mining the Web: Discovering knowledge from hypertext data , 2004, J. Assoc. Inf. Sci. Technol..

[17]  Yiming Yang,et al.  A re-examination of text categorization methods , 1999, SIGIR '99.

[18]  Robert R. Korfhage,et al.  Information Storage and Retrieval , 1963 .

[19]  James P. Callan,et al.  Training algorithms for linear text classifiers , 1996, SIGIR '96.

[20]  Dieter Merkl,et al.  A Connectionist View on Document Classification , 1995, Australasian Database Conference.

[21]  David D. Lewis,et al.  A comparison of two learning algorithms for text categorization , 1994 .

[22]  Douglas W. Oard Neural Networks in Information Filtering and Retrieval , 1994 .

[23]  Ah-Hwee Tan,et al.  On Quantitative Evaluation of Clustering Systems , 2003, Clustering and Information Retrieval.

[24]  Vijay V. Raghavan,et al.  Document Clustering, Visualization, and Retrieval via Link Mining , 2004 .

[25]  Gerard Salton,et al.  A vector space model for automatic indexing , 1975, CACM.

[26]  Mounia Lalmas,et al.  A probabilistic description-oriented approach for categorizing web documents , 1999, CIKM '99.

[27]  Shashi Shekhar,et al.  Clustering and Information Retrieval , 2011, Network Theory and Applications.