Automatic annotation of incomplete and scattered bibliographical references in Digital Humanities papers

In this paper, we deal with the problem of extracting and processing useful informa- tion from bibliographic references in Digital Humanities (DH) data. We present our ongoing project BILBO, supported by Google Grant for Digital Humanities that includes the constitu- tion of proper reference corpora and construction of efficient annotation model using several appropriate machine learning techniques. Conditional Random Field is used as a basic ap- proach to automatic annotation of reference fields and Support Vector Machine with a set of newly proposed features is applied for sequence classification. A number of experiments are conducted to find one of the best feature settings for CRF model on these corpora. RESUME.L'extraction d'informations bibliographiques depuis un texte non structure demeure un probleme ouvert que nous abordons, via des approches d'apprentissage automatique, dans le domaine des Humanites Numeriques. Nous presentons dans cet article le projet BILBO,soutenu par un Google Digital Humanities Award avec le soutien du projet ANR CAAS : constitution de 3 corpus de reference correspondant a trois localisations des references, elaboration d'un modele d'annotation puis evaluation. Les champs aleatoires conditionnels (CRFs) sont utilises pour l'annotation des references bibliographiques et des machines a vecteurs supports (SVMs) pour l'identification des references au sein du texte. De nombreuses experiences sont conduites afin de determiner les meilleures proprietes devant etre exploitees par les modeles numeriques.