TA statistique à petits corpus pour des petits sous-langages

Nous avons applique un systeme de TA statistique au "portage linguistique" de l'arabe au francais de CATS, un systeme traitant le contenu de brefs messages spontanes en langue naturelle (SMS). Il s'agit d'un "sous-langage" tres restreint. Nous ne disposions que d'un tres petit corpus parallele, augmente d'un dictionnaire bilingue assez complet lie a l'application choisie (petites annonces en occasion automobile). Bien que la TA statistique soit reputee ne fonctionner assez bien que si l'on dispose de tres grands corpus paralleles, le systeme que nous avons construit avec Pharaoh a produit des resultats satisfaisants, au sens ou les descripteurs de contenu obtenus sont assez proches de ceux obtenus a partir des SMS correspondants en arabe. Il semble donc qu'on puisse se passer de tres grands corpus pour utiliser efficacement la TA statistique sur des "sous-langages" tres restreints : les traductions ne sont pas tres "fluides", mais elles sont "adequates", et ce meme si les deux "langues-meres" des deux sous-langages consideres sont assez distantes.