论文信息 - Gérer l'incertitude lors de l'extraction de relations et lors de l'inférence de nouvelles connaissances

Gérer l'incertitude lors de l'extraction de relations et lors de l'inférence de nouvelles connaissances

Malgre leur volume important et leur accessibilite, de nombreuses donnees numeriques ne peuvent etre correc-tement exploitees car elles sont contenues dans des textes sous des formes peu ou pas structurees. L'extraction de relations est un processus qui rassemble des techniques pour extraire des entites et des relations a partir de textes, nous donnant la possibilite d'enrichir des bases de connais-sances de facon automatique. Cependant le langage na-turel est de facon intrinseque porteur d'ambiguite, ce qui constitue un premier niveau d'incertitude auquel on peut rajouter l'imprecision due aux formulations telles que "je crois que", "il semble que", etc. La base de connaissances doit donc tenir compte de cette incertitude par exemple en associant a chaque nouvelle connaissance extraite un score de confiance dependant du degre de certitude. Cet article est une communication de synthese qui detaille les diffe-rentes problematiques liees a l'incertitude et a l'impreci-sion au cours de la chaine de traitement allant de l'extrac-tion d'information dans les textes a l'inference de connais-sances. Il y sera notamment question de strategie d'agre-gation des differentes sources d'incertitude et d'impreci-sion et de leur prise en compte dans les traitements ulte-rieurs (par exemple la recherche d'information ou l'aide a la decision). Mots Clef TALN, extraction d'information, incertitude, inference de regles Abstract Among the increasing volume of electronic resources available , non-structured texts expressed through natural language are difficult to process automatically. In this context, relation extraction techniques propose to combine various approaches to extract entities and their relations from texts, e.g. to automatically enrich a knowledge base. Nevertheless , the natural language is per se ambiguous, which makes extraction results uncertain. It can also be used to express imprecise or uncertain statements, "It seem to me", "I believe", etc. Therefore, any knowledge base enriched through text analyses must consider these uncertainties , for instance by combining a confidence score to each knowledge extraction according to its associated level of uncertainty. This information will be of major importance to infer additional knowledge from these extractions. However , how to characterize, capture and integrate the uncertainty and imprecision of natural language ? In addition , how to take into account this uncertainty to infer new knowledge ? This paper is a synthesis communication related to the consideration of uncertainty and imprecision in the context of Information Extraction from texts and knowledge inference from these extractions. We propose in particular to define the terminology, to characterize the several sources of uncertainty and to discuss strategies that can be used to capture and consider the uncertainty in knowledge extraction and knowledge inference treatments.