Codages et connaissances en extraction d'information

Résumé : Ce travail se place dans le cadre d’un projet de recherche sur l’induction de programmes d’extraction d’information à partir de données du WEB. Dans le contexte de ce projet, nous développons une plate-forme conjuguant la vue textuelle des documents et leur structure, permettant l’introduction de connaissances du domaine et la combinaison d’algorithmes d’apprentissage. Dans le présent article, nous nous limitons à la vue textuelle et choisissons un codage simple de la forme attribut-valeur permettant facilement d’introduire des connaissances du domaine. Nous montrons que ce codage associé à un algorithme de classification supervisée classique, en l’occurrence C4.5, permet d’obtenir des performances significatives.