Transforming a Corpus into a Lexical Resource The Berlin Idiom Project

Nous decrivons les buts et les methodes du projet lexicographique « Collocations et expressions idiomatiques dans la langue allemande » mene a l’Academie des Sciences de Berlin-Brandenburg. Un tres gros corpus est etiquete et analyse automatiquement afin de permettre de rechercher de facons multiples les structures ciblees, a savoir les expressions idiomatiques verbales allemandes. Sur la base des tokens pertinents, une analyse detaillee linguistico-lexicographique est effectuee et consignee sur un ensemble de formulaires structures qui forment une sorte d’entree d’un dictionnaire electronique pour la structure cible. Afin de faciliter la transparence ainsi que les futures recherches, chaque phenomene linguistico-lexicographique retenu est apparie aux elements appropries du corpus. La ressource qui en resulte, qui combine une description exhaustive des proprietes des expressions idiomatiques et les elements du corpus, permet d’effectuer des types de recherches multiples.