Reseaux de neurones pour le traitement automatique du langage : conception et realisation de filtres d'informations

En raison de l'augmentation constante du volume d'information accessible electroniquement, la conception et la mise en uvre d'outils efficaces, permettant notamment a l'utilisateur de n'avoir acces qu'a l'information qu'il juge pertinente, devient une necessite absolue. Comme la plupart de ces outils sont destines a etre utilises dans un cadre professionnel, les exigences de fiabilite et de convivialite sont tres importantes; les problemes a resoudre pour satisfaire ces exigences sont nombreux et difficiles. L'acces a cette information pertinente peut se faire en fournissant a un utilisateur des documents pertinents ou en lui proposant des passages de documents pertinents (ou des reponses a des questions). Le premier cas releve du domaine de la recherche de textes et le second du domaine de l'extraction d'informations. C'est dans le domaine tres actif de la recherche de textes que s'est situe notre travail, realise dans le cadre d'une collaboration entre Informatique CDC, filiale de la Caisse des Depots et Consignations, et le Laboratoire d'Electronique de l'ESPCI. Le but de nos travaux a ete de developper un modele fonde sur l'apprentissage numerique pour la categorisation de textes ou, plus precisement, pour ce qui correspond a la tâche de routing dans le decoupage de la conference TREC (Text REtrieval Conference). L'approche que nous avons concue nous a permis d'obtenir un resultat tres satisfaisant: nous avons remporte la tâche de "routing" de la competition TREC 9, devancant notamment Microsoft. Le point essentiel de notre approche est l'utilisation d'un classifieur qui est un reseau de neurones dont l'architecture prend en consideration le contexte local des mots. La mise en uvre d'une methode de selection des entrees nous a permis de reduire a une vingtaine le nombre de descripteurs de chaque texte; neanmoins, le nombre de parametres reste eleve eu egard au nombre d'exemples disponibles (notamment lors de la competition TREC 9). Il a donc ete necessaire de mettre en uvre une methode de regularisation pour obtenir des resultats significatifs a l'issue des apprentissages. Nos resultats ont ete valides d'une part grâce au corpus Reuters-21578 qui est souvent utilise par la communaute de la categorisation de textes, et d'autre part, par la participation aux sous-tâches de routing de TREC-8 et TREC-9, qui ont permis d'effectuer des comparaisons chiffrees avec d'autres approches. Nos travaux ont ete integres dans l'application ExoWeb developpee a la Caisse des Depots, pour y ajouter des fonctionnalites operationnelles originales. Cette application offrait, sur l'intranet du groupe, un service de categorisation de depeches AFP en temps reel; cette categorisation s'effectuait grâce a des modeles a bases de regles. La premiere fonctionnalite nouvelle resultant de nos travaux est un outil qui permet a l'administrateur du systeme de surveiller automatiquement le vieillissement de filtres construits sur des modeles a base de regles. L'idee de cette application est de fabriquer une "copie" d'un filtre a base de regles avec un filtre utilisant un reseau de neurones. Comme le reseau de neurones produit une probabilite de pertinence et non une reponse binaire, il est possible d'attirer l'attention de l'administrateur sur les documents pour lesquels les filtres et les reseaux de neurones fournissent des reponses divergentes: documents consideres comme pertinents par la methode a base de regles, mais obtenant une probabilite proche de zero avec le reseau de neurones, et documents consideres comme non pertinents avec le premier et obtenant une probabilite de pertinence proche de un avec le second. Nous avons egalement propose les bases d'une deuxieme application, qui permet a un utilisateur de fabriquer lui-meme un filtre a sa convenance avec un travail minimum. Pour realiser cette application, il est necessaire que l'utilisateur fournisse une base de documents pertinents. Cela peut se faire grâce a l'utilisation d'un moteur de recherche conjointement avec un reseau de neurones ou uniquement grâce au moteur de recherche.