Fouille exploratoire de messages publiés sur Twitter pour l’aide à la décision

Depuis son lancement en 2006, Twitter n’a cesse de gagner en popularite et s’est maintenant installe dans une position d’acteur incontournable de la diffusion d’information. Son utilisation s’est democratisee et ce nouveau canal de communication fait maintenant partie integrante des strategies decisionnelles de la gestion de la relation client. Si la comprehension du langage naturel est depuis longtemps au coeur des enjeux industriels, les donnees issues de Twitter introduisent de nouvelles contraintes qui invalident les approches classiques. Ces textes informels sont courts, contiennent de nombreuses innovations linguistiques et traitent de sujets varies qui s’enchainent a un rythme journalier. Dans cette these, nous nous sommes places dans un contexte de fouille exploratoire permettant, en collaboration etroite avec un expert de l’entreprise, d’evaluer plusieurs approches sans a priori sur les donnees. L’application de methodes, traitant aussi bien les documents dans leur ensemble que les termes individuellement, a montre la necessite de se placer a un niveau de granularite intermediaire afin de construire des connaissances suivies dans ce contexte de forte nouveaute. Pour ce faire, nous proposons une approche adaptant la capacite d’abstraction des modeles de themes ("Topic Models") aux flux de textes dynamiques. En effet, ces modeles probabilistes permettent de modeliser des thematiques a differents niveaux de granularite et peuvent etre combines afin de suivre leurs evolutions temporelles. Notre methodologie, qui en sus de la phase d’extraction des themes s’appuie sur une restitution visuelle interactive de l’evolution temporelle de leurs relations fait tout particulierement sens dans le domaine tres actif de la modelisation de thematiques puisqu’elle permet d’integrer facilement de nouveaux modeles apportant des connaissances supplementaires.