Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système

Les corpus utilises en TA de l’ecrit et de l’oral ont evolue, depuis les suites de test et les corpus d’essai des debuts, vers des corpus paralleles bilingues ou multilingues, bruts ou enrichis par des metadonnees et une grande variete d’annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularite » importante en TA « experte », classique, mais sont enormes et de granularite faible en TA « empirique »,, statistique ou fondee sur les exemples. La representation des textes et l’interface avec le traitement de la parole posent des problemes specifiques, ainsi que la segmentation et la structuration des segments et des corpus. Un defi actuel est d’unifier et de mutualiser leur construction et leur gestion.