论文信息 - TA statistique à petits corpus pour des petits sous-langages

TA statistique à petits corpus pour des petits sous-langages

Nous avons applique un systeme de TA statistique au "portage linguistique" de l'arabe au francais de CATS, un systeme traitant le contenu de brefs messages spontanes en langue naturelle (SMS). Il s'agit d'un "sous-langage" tres restreint. Nous ne disposions que d'un tres petit corpus parallele, augmente d'un dictionnaire bilingue assez complet lie a l'application choisie (petites annonces en occasion automobile). Bien que la TA statistique soit reputee ne fonctionner assez bien que si l'on dispose de tres grands corpus paralleles, le systeme que nous avons construit avec Pharaoh a produit des resultats satisfaisants, au sens ou les descripteurs de contenu obtenus sont assez proches de ceux obtenus a partir des SMS correspondants en arabe. Il semble donc qu'on puisse se passer de tres grands corpus pour utiliser efficacement la TA statistique sur des "sous-langages" tres restreints : les traductions ne sont pas tres "fluides", mais elles sont "adequates", et ce meme si les deux "langues-meres" des deux sous-langages consideres sont assez distantes.

Christian Boitet | N. Hajlaoui | C. Boitet | Najeh Hajlaoui

[1] Zellig S. Harris,et al. Mathematical structures of language , 1968, Interscience tracts in pure and applied mathematics.

[2] I D Bross,et al. How information is carried in scientific sub-languages. , 1972, Science.

[3] Richard Kittredge,et al. Sublanguage : studies of language in restricted semantic domains , 1982 .

[4] Douglas Biber,et al. Using Register-Diversified Corpora for General Language Studies , 1993, Comput. Linguistics.

[5] Satoshi Sekine. A New Direction for Sublanguage N. L. P. , 1995 .

[6] Hermann Ney,et al. Improved Statistical Alignment Models , 2000, ACL.

[7] Andreas Stolcke,et al. SRILM - an extensible language modeling toolkit , 2002, INTERSPEECH.

[8] Salim Roukos,et al. Bleu: a Method for Automatic Evaluation of Machine Translation , 2002, ACL.

[9] Christian Boitet,et al. Portage linguistique d'applications de gestion de contenu , 2007 .

[10] Tadahiko Kumamoto. A Natural Language Dialogue System for Impression-based Music Retrieval , 2010, Polytech. Open Libr. Int. Bull. Inf. Technol. Sci..