Indexation et représentation comparative : application au discours électoral

RESUME. Cet article decrit quelques approches afin d'extraire les termes les plus representatifs d'un site web ou d'un ensemble de documents en comparaison avec d'autres sites ou un corpus de reference. Nous montrons que la frequence d'occurrence ou le rang des termes les plus frequents peut fournir une premiere synthese. Notre proposition s'appuie sur une distribution binomiale des mots et le calcul d'un score normalise (score Z) mettant en lumiere les termes comparativement les plus appropries. Quelques exemples tires des discours electoraux suisses ou francais illustrent l'interet de l'approche suggeree.

[1]  M. de Rijke,et al.  Using term clouds to represent segment-level semantic content of podcasts , 2008 .

[2]  John B. Shoven,et al.  I , Edinburgh Medical and Surgical Journal.

[3]  Udo Hahn,et al.  Functional Centering , 1996, ACL.

[4]  Claire Fautsch,et al.  Stratégies de recherche dans la blogosphère , 2008, Document Numérique.

[5]  Vibhu O. Mittal,et al.  OCELOT: a system for summarizing Web pages , 2000, SIGIR '00.

[6]  Chris D. Paice,et al.  Constructing literature abstracts by computer: Techniques and prospects , 1990, Inf. Process. Manag..

[7]  D. Labbé,et al.  Le discours gouvernemental. Canada, Québec, France (1945-2000) , 2003 .

[8]  Mark T. Maybury,et al.  Advances in Automatic Text Summarization , 1999 .

[9]  Denis Monière,et al.  Je est-il un autre ? , 2008 .

[10]  R. Harald Baayen,et al.  Word Frequency Distributions , 2001 .

[11]  Francine Chen,et al.  A trainable document summarizer , 1995, SIGIR '95.

[12]  C. Muller Principes et méthodes de statistique lexicale , 1992 .

[13]  D. Labbé,et al.  Les mots qui nous gouvernent: le discours des premiers ministres québécois : 1960-2005 , 2011 .

[14]  Manu Konchady Text Mining Application Programming , 2006 .

[15]  Jade Goldstein-Stewart,et al.  Summarizing text documents: sentence selection and evaluation metrics , 1999, SIGIR '99.

[16]  Adam Kilgarriff Googleology is Bad Science , 2007, Computational Linguistics.

[17]  Jacques Savoy,et al.  Recherche d'information dans des corpus plurilingues , 2002, Ingénierie des Systèmes d Inf..