Anonymisation de corpus réutilisables

La mise a disposition de corpus de traces issues de formations en ligne interesse la communaute scientifique dans sa demarche d'analyse des interactions humaines produites a travers le dispositif mediatise. Pour des raisons ethiques, les echanges de corpus doivent garantir l'anonymat des acteurs concernes. Ce travail s'interesse au processus d'anonymi¬sation d'un corpus pour en permettre un acces plus large. Les principes et l'outil d'anonymisation presentes sont appliques a un corpus d'interactions en apprentissage des langues. Dans de telles situations, les marques d'identite a masquer sont tantot des identifiants immuables produits par le systeme, tantot des appellations ou interpellations produites par les acteurs eux-memes et sujettes a des variations syntaxiques parfois signifiantes et empreintes de culture (surnoms, diminutifs). Enfin, cette contribution pose la question de la frontiere a definir entre le contexte socioculturel utile a l'analyse et l'identite de l'acteur a proteger.