Maîtriser les déluges de données hétérogènes

Le traitement automatique des langues fait de plus en plus appel a de volumineux corpus textuels pour l'acquisition des connaissances. L'obstacle actuel n'est plus la disponibilite de corpus, ni meme leur taille, mais l'heterogeneite des donnees qui sont rassemblees sous ce nom. Dans cet article, nous examinons l'heterogeneite que manifestent les articles du Monde quand on les regroupe selon les rubriques de la redaction du journal. Les consequences d'une telle heterogeneite pour l'etiquetage et le parsage sont soulignees. Partant de ce constat, nous definissons la notion de "profilage de corpus" par le biais d'outils permettant d'evaluer l'homogeneite d'un corpus (sur-emploi du vocabulaire, de categories morpho-syntaxiques, ou de patrons) et l'utilisation qui peut en etre faite.