Annotation d'expressions polylexicales verbales en français (Annotation of verbal multiword expressions in French)

Nous decrivons la partie francaise des donnees produites dans le cadre de la campagne multilingue PARSEME sur l’identification d’expressions polylexicales verbales (Savary et al., 2017). Les expressions couvertes pour le francais sont les expressions verbales idiomatiques, les verbes intrinsequement pronominaux et une generalisation des constructions a verbe support. Ces phenomenes ont ete annotes sur le corpus French-UD (Nivre et al., 2016) et le corpus Sequoia (Candito & Seddah, 2012), soit un corpus de 22 645 phrases, pour un total de 4 962 expressions annotees. On obtient un ratio d’une expression annotee tous les 100 tokens environ, avec un fort taux d’expressions discontinues (40%).