Étude sur l'impact du sous-langage dans la classification automatique d'appels d'offres

Resume: Dans cet article nous evaluons diverses approches pour filtrer le contenu « procedural » d’un document, et mesurons leur impact sur la classification d’une collection d’appels d’offres. Deux types d’approches sont testees : la selection de termes a partir d’un vocabulaire de reference, et le filtrage de phrases. Nous ne trouvons pas de difference significative entre le vocabulaire de reference et celui de la collection d’entrainement. Par contre le filtrage par phrases donne d’excellents resultats sur notre collection, et peu meme avantageusement etre combine a d’autres techniques de selection.

[1]  Yiming Yang,et al.  A study of thresholding strategies for text categorization , 2001, SIGIR '01.

[2]  Jian-Yun Nie,et al.  MBOI : Un outil pour la veille d'opportunités sur l'Internet , 2005 .

[3]  Thorsten Joachims,et al.  Text Categorization with Support Vector Machines: Learning with Many Relevant Features , 1998, ECML.

[4]  John Lehrberger,et al.  Automatic Translation and the Concept of Sublanguage , 1982 .

[5]  Richard Kittredge,et al.  Sublanguage : studies of language in restricted semantic domains , 1982 .

[6]  Stephanie W. Haas,et al.  Sublanguage Terms: Dictionaries, Usage, and Automatic Classification , 1995, J. Am. Soc. Inf. Sci..

[7]  Ellen M. Voorhees,et al.  Using WordNet to disambiguate word senses for text retrieval , 1993, SIGIR.

[8]  Marc Moens,et al.  Sentence extraction and rhetorical classification for flexible abstracts , 1998 .

[9]  Satoshi Sekine A New Direction for Sublanguage N. L. P. , 1995 .

[10]  Simone Teufel,et al.  Sentence extraction as a classification task , 1997 .

[11]  Sergei Nirenburg,et al.  Automatic Translation and the Concept of Sublanguage , 2003 .

[12]  Denyse Baillargeon,et al.  Bibliographie , 1929 .

[13]  Constantin Orasan,et al.  A Comparison of Summarisation Methods Based on Term Specificity Estimation , 2004, LREC.

[14]  Chris Buckley,et al.  Improving automatic query expansion , 1998, SIGIR '98.

[15]  Yiming Yang,et al.  A re-examination of text categorization methods , 1999, SIGIR '99.

[16]  Masaki Murata,et al.  Sentence Extraction System Assembling Multiple Evidence , 2001, NTCIR.

[17]  David R. Karger,et al.  Tackling the Poor Assumptions of Naive Bayes Text Classifiers , 2003, ICML.

[18]  Douglas Biber,et al.  Using Register-Diversified Corpora for General Language Studies , 1993, Comput. Linguistics.