Approches Statistique et Linguistique Pour la Classification de Textes d'Opinion Portant sur les Films

Les sites communautaires sont par nature des lieux consacres a l'expression et au partage d'avis et d'opinions. www.flixster.com est un exemple de site participatif ou se retrouvent chaque jour des dizaines de millions de fans dans le but de partager leurs impressions et sentiments sur les films. Une etude approfondie de cette richesse d'information permettrait une meilleure connaissance des utilisateurs, de leurs attentes, de leurs besoins. Pour y parvenir, une etape necessaire est la classification automatique d'opinion.Dans ce papier nous decrivons trois approches permettant de classer des textes selon l'opinion qu'ils expriment. La premiere approche consiste a etiqueter lesmots porteurs d'opinion a l'aide de techniques linguistiques, ces mots permettant par la suite de classer les textes. La deuxieme approche est basee sur des techniques statistiques. La derniere approche est une approche hybride qui combine approche linguistique, pour pretraiter le corpus, et approche statistique, afin de classer les textes.

[1]  Claude E. Shannon,et al.  Prediction and Entropy of Printed English , 1951 .

[2]  Peter D. Turney Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews , 2002, ACL.

[3]  Marc Boullé,et al.  Compression-Based Averaging of Selective Naive Bayes Classifiers , 2007, J. Mach. Learn. Res..

[4]  Katarzyna Wegrzyn-Wolska,et al.  An Autonomous System Designed for Automatic Detection and Rating of Film Reviews , 2008, 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology.

[5]  Diego Reforgiato Recupero,et al.  Sentiment Analysis: Adjectives and Adverbs are Better than Adjectives Alone , 2007, ICWSM.

[6]  William W. Cohen Learning Trees and Rules with Set-Valued Features , 1996, AAAI/IAAI, Vol. 1.

[7]  Thorsten Joachims,et al.  Transductive Inference for Text Classification using Support Vector Machines , 1999, ICML.

[8]  Bing Liu,et al.  Opinion observer: analyzing and comparing opinions on the Web , 2005, WWW '05.

[9]  Marc Boullé A Bayes Optimal Approach for Partitioning the Values of Categorical Attributes , 2005, J. Mach. Learn. Res..

[10]  Thorsten Joachims,et al.  Making large-scale support vector machine learning practical , 1999 .

[11]  Marc Boullé,et al.  MODL: A Bayes optimal discretization method for continuous attributes , 2006, Machine Learning.

[12]  Huan Liu,et al.  Discretization: An Enabling Technique , 2002, Data Mining and Knowledge Discovery.

[13]  Thorsten Joachims,et al.  Text Categorization with Support Vector Machines: Learning with Many Relevant Features , 1998, ECML.