The WEB as a database: new extraction technologies & content management

Les technologies d'extraction de l'information sur le Web permettent d'identifier des informations pertinentes a partir de textes de formats varies, et de les presenter sous une forme homogene. La difference de l'extraction avec la recherche d'information reside dans la granularite de l'acces : ce ne sont pas des documents mais des faits qui sont retrouves. Le Web devient alors une base de donnees que les utilisateurs peuvent organiser en taxonomies. L'article presente le fonctionnement et les avantages des deux principales methodes utilisees dans l'extraction d'information - le traitement en langage naturel et l'induction par enroulement (wrapper induction) -, reposant toutes les deux sur des modeles etablis par apprentissage automatique. Partie integrante de la gestion des connaissances, alternative a la recherche traditionnelle, point d'acces au Web cache ou solution a la surcharge d'information, les technologies d'extraction de donnees sont en tout cas tres prometteuses pour les professionnels de l'information.