Une nouvelle méthode ensembliste pour la reconnaissance et la désambiguïsation d'entités nommées en utilisant des réseaux de neurones

Resume de [Canale et al. (2018)], publie a ISWC 2018. Une tâche cruciale en extraction de connaissances a partir de textes se decompose souvent en deux tâches complementaires : la reconnaissance d'entite nommee (NER) et la desambiguisation d'entite nommee (NED). L'objectif consiste a attribuer a des parties du texte (mention) respectivement un type appartenant a une taxonomie predefinie et un identifiant unique, souvent represente sous la forme d'URI, qui fait reference de maniere univoque a une entite definie dans une base de connaissances donnee. La combinaison de ces deux tâches est souvent abregee avec l'acronyme NERD. De nombreuses approches, souvent exposees sous forme d'API Web, ont ete proposees pour re-soudre ces tâches au cours des dernieres annees. En termes de NER, chaque service fournit generale-ment sa propre taxonomie de types qui peuvent etre reconnus. Meme si tous comprendront trois types principaux (PERSON, ORGANIZATION, LOCATION), ils different largement pour les types plus fins, ce qui complique leur comparaison et leur combinaison. En termes de NED, chaque extracteur peut potentiellement lever l'ambiguite d'entites par rapport a des bases de connaissances specifiques (KB), mais en pratique, ils s'appuient principalement sur des bases de connaissances generalistes, comme DBpedia ou Wikidata. Pour cette raison, la comparaison et la fusion des resultats de ces ex-tracteurs necessitent certaines tâches de post-traitement qui dependent generalement d'alignements entre ces bases de connaissances. Dans ce travail, nous decrivons Ensemble NERD, un framework qui regroupe de nombreuses reponses d'extracteurs, les normalise et les combine afin de produire des annotations semantiques. Cette methode repose sur deux reseaux d'apprentissage profond, ENNTR (Ensemble Neural Network for Type Recognition) et ENND (Ensemble Neural Network for Disambiguation), qui fournissent des modeles pour effectuer d'une part un alignement entre les types et d'autre part entre les entites nommees identifiees dans une base de connaissances.