Description, modélisation et détection automatique des chaînes de référence (DEMOCRAT)

Finance par l’ANR dans le cadre de l’appel a projets generique 2015, defi 8 « Societes innovantes, integrantes et adaptative », le projet DEMOCRAT fait suite a un projet PEPS INS2I-INSHS (CNRS) intitule MC4 (« Modelisation Contrastive et Computationnelle des Chaines de Coreference »). Reunissant comme ce dernier des chercheurs du Lattice, d’ICAR et de LiLPa, DEMOCRAT vise a developper les recherches sur la langue et la structuration textuelle du francais via l’analyse detaillee et contrastive des chaines de reference (instanciations successives d’une meme entite) dans un corpus diachronique de textes ecrits entre le 9eme et le 21eme siecle, avec des genres textuels varies. Le projet mettra a disposition de la communaute scientifique : (i) un modele integre et discursif de la reference et de la composition des chaines de reference ; (ii) un corpus annote qui puisse servir de corpus de reference et de corpus d’apprentissage pour les campagnes d’evaluation internationales portant sur la coreference ; (iii) un outil d’annotation, d’aide a l’annotation et de manipulation des donnees annotees, et (iv) un systeme de detection automatique des coreferences. Dans cet article de presentation generale du projet, nous presentons les objectifs et les resultats attendus, apres un descriptif des activites du laboratoire Lattice (laboratoire porteur du projet).