Application de techniques de forage de textes de nature prédictive et exploratoire à des fins de gestion et d'analyse thématique de documents textuels non structurés
暂无分享,去创建一个
Depuis les dix dernieres annees, on observe une hausse considerable du nombre d'initiatives visant a numeriser et a rendre disponible le patrimoine informationnel des organisations et des differentes branches du savoir. Les consequences decoulant de ces initiatives sont importantes et tres nombreuses. Elles ont entre autres conduit a l'emergence d'applications permettant differentes operations complexes d'analyse et de gestion des documents. Malgre la diversite de ces applications, on constate que l'ensemble des disciplines reliees a l'analyse et a la gestion des documents textuels sont axees sur la comprehension et l'informatisation des processus d'identification des contenus thematiques et d'analyse thematique. Le projet que nous presentons aborde precisement les problematiques de l'identification des themes et de l'assistance a l'analyse thematique des documents textuels. L'objectif general du projet est de developper et de valider deux methodologies informatiques fondees respectivement sur la categorisation et la classification automatiques permettant d'assister efficacement l'identification des themes et, surtout, l'analyse thematique des documents textuels. Il vise ainsi a effectuer un transfert de concepts et de methodologies provenant, d'une part, des recherches theoriques et pluridisciplinaires portant sur l'analyse thematique et, d'autre part, des recherches appliquees en classification et en categorisation automatiques des donnees afin de proposer une methodologie et un prototype d'application flexible visant a assister le chercheur dans son travail d'analyse thematique des textes. Le defi principal de ce projet reside donc dans l'operationnalisation de l'analyse thematique en employant certaines strategies de classification et de categorisation automatiques des textes. Au niveau cognitif, nous proposons d'explorer la pertinence et la fecondite de certaines theories d'inspiration linguistique et litteraire ayant aborde la question du theme pour nous aider dans l'identification du contenu thematique et l'analyse thematique des documents textuels. A ce niveau, notre objectif est de demontrer comment les theories retenues, celles de Kintsch et Van Dijk, de Rimmon-Kenan et de Rastier, ont defini le theme de telle sorte qu'il est possible d'en assister informatiquement l'identification et l'analyse a l'aide de la methodologie que nous proposons. Au niveau informatique, un premier volet de notre demarche consiste a explorer et a comparer les performances des operations de categorisation et de classification automatiques a des fins d'identification du contenu thematique et d'analyse thematique des documents textuels non structures. Les resultats sont evalues en appliquant un systeme de categorisation hybride neuro-flou et un algorithme de classification neuronal non supervise sur un corpus d'articles de journaux. Par ailleurs, la classification et la categorisation sont des operations traditionnellement appliquees a des documents entiers. Nous proposons une maniere alternative de realiser ces processus : notre demarche consiste d'abord a segmenter chacun des documents puis a soumettre aux processus de regroupement les differents segments de texte. Cette demarche a l'avantage de pouvoir attribuer plusieurs categories thematiques a chaque document, ce qui est plus difficilement realisable lorsque les documents sont traites en entier. Finalement, dans bon nombre d'applications d'analyse et de gestion des documents textuels, le processus de categorisation est effectue en utilisant un plan de classification ou une taxinomie de categories predefinies. Le developpement de ces taxinomies, bien qu'il puisse etre assiste dans certains cas par des applications informatiques, s'avere couteux et tres complexe. Dans ce projet, nous demontrerons qu'il est possible, en l'absence de taxinomies, d'employer certains termes du lexique initial du corpus comme etiquettes thematiques.
______________________________________________________________________________
MOTS-CLES DE L’AUTEUR : analyse thematique, identification de themes, Lecture et Analyse de Textes Assistees par Ordinateur (LATAO), classification automatique, categorisation automatique.