Méthodes pour informatiser les langues et les groupes de langues « peu dotées ». (Methods to computerize "little equipped" languages and groups of languages)

En 2004, moins de 1 % des 6800 langues du monde beneficie d'un niveau d'informatisation eleve, incluant un eventail large de services allant du traitement de textes a la traduction automatique. Cette these, qui s'interesse aux autres langues - les langues-pi - s'attache a proposer des solutions pour remedier a leur sous-developpement informatique. Dans une premiere partie destinee a montrer la complexite du probleme, nous presentons la diversite des langues, les technologies utilisees, ainsi que les approches des differents acteurs impliques : populations linguistiques, editeurs de logiciels, Nations Unies, Etats... Une mesure du degre d'informatisation des langues - l'indice-sigma - ainsi que plusieurs methodes sont proposees. La seconde partie traite de l'informatisation du laotien et presente concretement les travaux realises pour cette langue en appliquant les methodes decrites precedemment. Les realisations decrites ont permis d'ameliorer l'indice-sigma de la langue laotienne d'environ 4 points, cet indice etant actuellement evalue a 8,7/20. Dans la troisieme partie, nous montrons qu'une approche par groupe de langues peut encore reduire les couts d'informatisation grâce a l'utilisation d'une architecture modulaire associant des logiciels grand public et des complements specifiques. Pour les parties intimement liees aux langues, des outils linguiciels generiques complementaires permettent aux populations d'informatiser elles-memes leurs langues. Nous avons valide cette methode en l'appliquant a la segmentation syllabique de langues a ecritures non segmentee d'Asie du Sud-Est, telles que le birman, le khmer, le laotien et le siamois (thai).

[1]  James H. Martin,et al.  Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition, 2nd Edition , 2000, Prentice Hall series in artificial intelligence.

[2]  Jean-Marie Pierrel,et al.  Ingénierie des langues , 2000 .

[3]  Robert Dale,et al.  Handbook of Natural Language Processing , 2001, Computational Linguistics.

[4]  Hai Doan Nguyen Techniques génériques d'accumulation d'ensembles lexicaux à partir de ressources dictionnairiques informatisées multilingues hétérogènes , 1998 .

[5]  Ted Leslie Efficient approaches to subset construction , 1995 .

[6]  Michel Ferlus,et al.  Langues et écritures en Asie du Sud-Est , 1988 .

[7]  Wirote Aroonmanakun,et al.  Collocation and Thai Word Segmentation , 2002 .

[8]  James L. Peterson,et al.  Computer programs for spelling correction , 1980 .

[9]  Umberto Eco,et al.  Theory of Codes , 1976 .

[10]  Christian Boitet,et al.  A research perspective on how to democratize machine translation and translation aids aiming at high quality final output , 1999, MTSUMMIT.

[11]  Bruce W. Watson An introduction to the FIRE engine : a C++ toolkit for finite automata and regular expressions , 1994 .

[12]  Mathieu Mangeot How to Import an Existing XML Dictionary Into the Papillon Platform , 2002 .

[13]  C. F. Voegelin,et al.  Classification And Index Of The World's Languages , 1978 .

[14]  Vincent Berment Several Technical Issues for Building New Lexical Bases , 2002 .

[15]  Inés Diz Gamallo,et al.  The importance of MT for the survival of minority languages: Spanish-Galician MT system , 2001, MTSUMMIT.

[16]  Merritt Ruhlen,et al.  A Guide to the World''s Languages: Volume 1 , 1987 .

[17]  Marc Reinhorn Dictionnaire laotien-français , 1970 .

[18]  Bernard Comrie,et al.  The World's Major Languages , 1987 .

[19]  M. Ruhlen A Guide to the World’s Languages , 1987 .

[20]  Hannah Arendt,et al.  Qu'est-ce que la politique? , 2001 .

[21]  Sergio Ortiz Rojas,et al.  The Spanish<>Catalan machine translation system interNOSTRUM , 2001, MTSUMMIT.

[22]  Gerard Moussay Grammaire de la langue Cam , 2006 .

[23]  Eric Wehrli,et al.  L'analyse syntaxique des langues naturelles : problèmes et méthodes , 1997 .

[24]  Virach Sornlertlamvanich,et al.  AUTOMATIC ROMANIZATION FOR THAI , 1999 .

[25]  Yasuharu Asano,et al.  Traitement de la parole , 2000 .

[26]  Claude Del Vigna Web-Powered Databases: The Low Level in C++ , 2003, Web-Powered Databases.

[27]  Christian Boitet,et al.  Four technical and organizational keys to handle more languages and improve quality (on demand) in MT , 2001, MTSUMMIT.

[28]  Christian Boitet Méthodes d'acquisition lexicale en TAO : des dictionnaires spécialisés propriétaires aux bases lexicales généralistes et ouvertes , 2001 .

[29]  Grant D. McConnell,et al.  Linguistic composition of the nations of the world = Composition linguistique des nations du monde , 1974 .

[30]  David Dalby,et al.  The Linguasphere Register of the World's Languages and Speech Communities , 2000 .

[31]  Michael Paul Translation knowledge recycling for related languages , 2001, MTSUMMIT.

[32]  Virach Sornlertlamvanich,et al.  Panel: The State of the Art in Thai Language Processing , 2000, ACL.

[33]  B. Watson A taxonomy of finite automata minimization algorithms , 1993 .

[34]  Mathieu Lafourcade,et al.  Génie logiciel pour le génie linguiciel , 1994 .

[35]  Virach Sornlertlamvanich,et al.  Issues in Thai Text-to-Speech Synthesis: The NECTEC Approach 1 , 2000 .

[36]  Muhtar MAHSUT,et al.  Utilizing agglutinative features in Japanese-Uighur machine translation , 2001, MTSUMMIT.

[37]  Claude Hagège,et al.  Halte à la mort des langues , 2000 .

[38]  Mihoko Kitamura,et al.  Collaborative translation environment on the Web , 2001, MTSUMMIT.

[39]  KAWTRAKUL Asanee THUMKANON Chalathip SERIBURI Sapon A Statistical Approach to Thai Word Filtering * , 2003 .

[40]  George Cœdès,et al.  Les états hindouisés d'Indochine et d'Indonésie , 1949 .

[41]  Gilles Sérasset,et al.  Sublim : un systeme universel de bases lexicales multilingues et Nadia : sa specialisation aux bases lexicales interlingues par acceptions. (Sublim: A Universal Lexical Database Manager and Nadia: its Specialisation for Acception Based Interlingual Lexical Database) , 1994 .

[42]  Mark Davis,et al.  The Unicode Standard, Version 3.0 , 2000 .

[43]  Pradit Mittrapiyanuruk,et al.  THE AUTOMATIC THAI SENTENCE EXTRACTION , 2000 .

[44]  Claude Del Vigna,et al.  Ambiguïtés Irréductibles dans les Monoïdes de Mots , 2003 .

[45]  George L. Campbell,et al.  Compendium of the World's Languages , 1991 .

[46]  C. F. Hockett,et al.  The World's Writing Systems , 1997 .

[47]  James A. Matisoff,et al.  An introduction to the Burmese writing system , 1972 .

[48]  S. Wurm,et al.  Atlas of the World's Languages in Danger of Disappearing , 2001 .

[49]  C. Moseley,et al.  Atlas of the world's languages , 1994 .

[50]  石綿 敏雄 グルノーブル通信〔Groupe d'Etude pour Traduction Automatiqueの紹介〕(海外消息) , 1973 .

[51]  Somchai Prasitjutrakul,et al.  Automatic Indexing for Thai Text with Unknown Words using Trie Structure , 1997 .