Étude d'un modèle d'inférence de connaissances à partir de textes

Cet article propose une approche automatisee d’inference de connaissances basee sur l’analyse de relations extraites a partir de textes. Son originalite repose sur la definition d’un cadre tenant compte (i) d’une structuration des objets etudies (e.g. syntagmes nominaux) sous la forme d’un ordre partiel et (ii) de l’exploitation possible d’une connaissance a priori formalisee dans un modele de connaissances de type ontologie (taxonomie). Ce cadre permet notamment de definir des regles de propagation de l’information basees sur la theorie des croyances afin d’inferer de nouvelles connaissances a partir des relations extraites. Bien qu’a portee plus large, notre approche est ici illustree et evaluee au travers de la definition d’un systeme automatique exploitant des textes issus du Web afin de repondre a des questionnaires generes. Nous montrons notamment l’interet de structurer les extractions et le gain apporte par la prise en compte d’une connaissance a priori au sein d’une telle chaine de traitement.

[1]  Mohamed Yahya,et al.  Knowledge Questions from Knowledge Graphs , 2016, ICTIR.

[2]  Paul Buitelaar,et al.  SemEval-2015 Task 17: Taxonomy Extraction Evaluation (TExEval) , 2015, SemEval@NAACL-HLT.

[3]  Estevam R. Hruschka,et al.  Toward an Architecture for Never-Ending Language Learning , 2010, AAAI.

[4]  Andreas Papasalouros,et al.  Automatic Generation Of Multiple Choice Questions From Domain Ontologies , 2008, e-Learning.

[5]  Ramesh Nallapati,et al.  Multi-instance Multi-label Learning for Relation Extraction , 2012, EMNLP.

[6]  Oren Etzioni,et al.  Open Language Learning for Information Extraction , 2012, EMNLP.

[7]  Glenn Shafer,et al.  A Mathematical Theory of Evidence , 2020, A Mathematical Theory of Evidence.

[8]  Alan R. Aronson,et al.  Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program , 2001, AMIA.

[9]  Wei Zhang,et al.  Knowledge vault: a web-scale approach to probabilistic knowledge fusion , 2014, KDD.

[10]  Anne-Laure Ligozat,et al.  Distractor Quality Evaluation in Multiple Choice Questions , 2015, AIED.

[11]  Patrice Bellot,et al.  Uncertainty detection in natural language: a probabilistic model , 2016, WIMS.

[12]  Christopher Ré,et al.  Elementary: Large-Scale Knowledge-Base Construction via Machine Learning and Statistical Inference , 2012, Int. J. Semantic Web Inf. Syst..

[13]  Haixun Wang,et al.  Probase: a probabilistic taxonomy for text understanding , 2012, SIGMOD Conference.

[14]  A. Barabasi,et al.  Human symptoms–disease network , 2014, Nature Communications.

[15]  Andon Tchechmedjiev,et al.  État de l’art : mesures de similarité sémantique locales et algorithmes globaux pour la désambiguïsation lexicale à base de connaissances (State of the art : Local Semantic Similarity Measures and Global Algorithmes for Knowledge-based Word Sense Disambiguation) [in French] , 2012, JEP/TALN/RECITAL.

[16]  Bo Zhang,et al.  StatSnowball: a statistical approach to extracting entity relationships , 2009, WWW '09.

[17]  Divesh Srivastava,et al.  Integrating Conflicting Data: The Role of Source Dependence , 2009, Proc. VLDB Endow..

[18]  Jens Lehmann,et al.  DBpedia: A Nucleus for a Web of Open Data , 2007, ISWC/ASWC.