The Logoscope: a Semi-Automatic Tool for Detecting and Documenting French New Words

In this article we present the design and implementation of the Logoscope, the first tool especially developed to detect new words of the French language, to document them and allow a public access through a web interface. This semi-automatic tool collects new words daily by browsing the online versions of French well known newspapers such as Le Monde, Le Figaro, L'Equipe, Lib\'eration, La Croix, Les \'Echos. In contrast to other existing tools essentially dedicated to dictionary development, the Logoscope attempts to give a more complete account of the context in which the new words occur. In addition to the commonly given morpho-syntactic information it also provides information about the textual and discursive contexts of the word creation; in particular, it automatically determines the (journalistic) topics of the text containing the new word. In this article we first give a general overview of the developed tool. We then describe the approach taken, we discuss the linguistic background which guided our design decisions and present the computational methods we used to implement it.

[1]  Mathieu Valette,et al.  la créativité lexicale : des pratiques sociales aux textes , 2008 .

[2]  Corinna Peschel Zum Zusammenhang von Wortneubildung und Textkonstitution , 2002 .

[3]  G. Dal,et al.  À propos des occasionnalismes , 2016 .

[4]  S. Roche,et al.  Cenit : Système de détection semi-automatique des néologismes , 1999 .

[5]  M. C. Castellví La neologia: un nou camp a la cerca de la seva consolidació científica , 2015 .

[6]  Mehran Sahami,et al.  Text Mining: Classification, Clustering, and Applications , 2009 .

[8]  Fabrice Issac Cybernéologisme : Quelques outils informatiques pour l'identification et le traitement des néologismes sur le web , 2011 .

[9]  Petr Sojka,et al.  Software Framework for Topic Modelling with Large Corpora , 2010 .

[10]  Gil Francopoulo,et al.  Standards going concrete : from LMF to Morphalou , 2004, COLING 2004.

[11]  Coralie Reutenauer,et al.  Vers un traitement automatique de la néosémie : approche textuelle et statistique , 2012 .

[12]  W. Stein Siebold, Oliver: Wort – Genre – Text. Wortneubildungen in der Science Fiction , 2002 .

[13]  Jean-François Sablayrolles Neologia : un dictionnaire néologique sous forme de base de données , 2010 .

[14]  Lothar Lemnitzer,et al.  Mots nouveaux et nouvelles significations : que nous apprennent les mots composés ? , 2012 .

[15]  Ian H. Witten,et al.  The WEKA data mining software: an update , 2009, SKDD.

[16]  Maarten Janssen NeoTag: a POS Tagger for Grammatical Neologism Detection , 2012, LREC.

[17]  Delphine Bernhard,et al.  From Non Word to New Word: Automatically Identifying Neologisms in French Newspapers , 2014, LREC.

[18]  Delphine Bernhard,et al.  Traitement automatisé de la néologie : pourquoi et comment intégrer l'analyse thématique ? , 2014 .

[19]  Ian H. Witten,et al.  Domain-independent automatic keyphrase indexing with small training sets , 2008, J. Assoc. Inf. Sci. Technol..

[20]  Pierre Swiggers,et al.  TERMINOLOGIE, TERMINOGRAPHIE ET MÉTALANGAGE LINGUISTIQUES: QUELQUES RÉFLEXIONS ET PROPOSITIONS , 2010 .

[21]  Thomas L. Griffiths,et al.  Probabilistic Topic Models , 2007 .

[22]  Chong Wang,et al.  Stochastic variational inference , 2012, J. Mach. Learn. Res..

[23]  W. Oesterreicher,et al.  62. Gesprochene Sprache und geschriebene Sprache / Langage parlé et langage écrit , 2001 .

[24]  J. Boulanger Sur l'existence des concepts de 'néologie' et de 'néologisme'. Propos sur un paradoxe lexical et historique , 2010 .

[25]  Alfred V. Aho,et al.  Efficient string matching , 1975, Commun. ACM.

[26]  Sabine Ploux,et al.  Using Topic Salience and Connotational Drifts to Detect Candidates to Semantic Change , 2011, IWCS.

[27]  L. Rosier,et al.  Introduction. Héritages et reconfigurations conceptuelles de l'analyse du discours « à la française » : perte ou profit ? , 2012 .

[28]  Chih-Jen Lin,et al.  LIBSVM: A library for support vector machines , 2011, TIST.

[29]  A. Rey Néologisme, un pseudo-concept? , 1976 .

[30]  Francis R. Bach,et al.  Online Learning for Latent Dirichlet Allocation , 2010, NIPS.

[31]  C. Elkan,et al.  Topic Models , 2008 .