Multilinguïsation des systèmes de e-commerce traitant des énoncés spontanés en langue naturelle. (Multilinguïsation of e-commerce system treating spontaneous utterances in natural language)

Nous nous interessons a la multilinguisation, ou « portage linguistique » (plus simple que la localisation) des services de gestion de contenu traitant des enonces spontanes en langue naturelle, souvent bruites, mais contraints par la situation, et constituant toujours un « sous-langage » plus ou moins restreint. Un service de ce type (soit App) utilise une representation du contenu specifique (RC-App) sur laquelle travaille le noyau fonctionnel. Le plus souvent, cette representation est produite a partir de la langue « native » L1 par un extracteur de contenu (EC-App). Nous avons degage trois methodes de portage possibles, et les avons illustrees par le portage en francais d'une partie de CATS, un systeme de traitement de petites annonces en SMS (en arabe) deploye a Amman, ainsi que sur IMRS, un systeme de recherche de morceaux de musique dont l'interface native est en japonais et dont seule la RC est accessible. Il s'agit de : (1) localisation « interne », i.e. adaptation a L2 de l'EC donnant EC-App-L2 ; (2) localisation « externe », i.e. adaptation d'un EC existant pour L2 au domaine et a la representation de contenu de App (EC-X-L2-App); (3) traduction des enonces de L2 vers L1. Le choix de la strategie est contraint par la situation traductionnelle : types et niveau d'acces possibles (acces complet au code source, acces limite a la representation interne, acces limite au dictionnaire, et aucun acces), ressources disponibles (dictionnaires, corpus), competences langagieres et linguistiques des personnes intervenant dans la multilinguisation des applications. Les trois methodes ont donne de bons resultats sur le portage d'arabe en francais de la partie de CATS concernant l'occasion automobile. En localisation interne, la partie grammaticale a ete tres faiblement modifiee, ce qui prouve que, malgre la grande distance entre l'arabe et le francais, ces deux sous-langages sont tres proches l'un de l'autre, une nouvelle illustration de l'analyse de R. Kittredge. La localisation externe a ete experimentee sur CATS et sur IMRS en adaptant au nouveau domaine considere l'extracteur de contenu du francais ecrit initialement par H. Blanchon pour le domaine du tourisme (projet CSTAR/Nespole!), puis en changeant de langue pour IMRS (anglais). Enfin, le portage par TA statistique a egalement donne de tres bonnes performances, et cela avec un corpus d'apprentissage tres petit (moins de 10.000 mots) et un dictionnaire complet. Cela prouve que, dans le cas de sous-langages tres petits, la TA statistique peut etre de qualite suffisante en partant de corpus 100 a 500 fois moins grands que pour de la langue generale.

[1]  W. Nelson Francis,et al.  Language corpora B.C. , 1992 .

[2]  Najeh Hajlaoui Localizing Content Management Application for Spontaneous Textual Utterances in Natural Language. , 2007 .

[3]  Christophe Chenon Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastique , 2005 .

[4]  M. Cali,et al.  Relational learning techniques for natural language information extraction , 1998 .

[5]  Richard Kittredge,et al.  Sublanguage : studies of language in restricted semantic domains , 1982 .

[6]  Christian Boitet,et al.  Portage linguistique d'applications de gestion de contenu , 2007 .

[7]  Olivier Kraif Constitution et exploitation de bi-textes pour l'Aide à la traduction , 2001 .

[8]  Georgios C. Anagnostopoulos,et al.  Knowledge-Based Intelligent Information and Engineering Systems , 2003, Lecture Notes in Computer Science.

[9]  Christian Boitet,et al.  On UNL as the future “html of the linguistic content” & the reuse of existing NLP components in UNL-related applications with the example of a UNL-French deconverter , 2000, COLING.

[10]  Christian Boitet,et al.  Methods for porting NL-based restricted e-commerce systems into other languages , 2008, LREC 2008.

[11]  Akira Sato,et al.  An impression-based retrieval system of music collection , 2000, KES'2000. Fourth International Conference on Knowledge-Based Intelligent Engineering Systems and Allied Technologies. Proceedings (Cat. No.00TH8516).

[12]  Yiming Ye,et al.  Conversation Machines for Transaction Processing , 1998, AAAI/IAAI.

[13]  Ralph Grishman,et al.  Analysing language in restricted domains , 1986 .

[14]  Eric Brill,et al.  Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging , 1995, CL.

[15]  Najeh Hajlaoui Recherche et production de corpus de messages pour la multilinguisation de sites de e-commerce en SMS, initialement en arabe , 2006 .

[16]  Hermann Ney,et al.  A Systematic Comparison of Various Statistical Alignment Models , 2003, CL.

[17]  Harold Boley,et al.  A Weighted‐Tree Similarity Algorithm for Multi‐Agent Systems in E‐Business Environments , 2004, Comput. Intell..

[18]  N. Boufaden Extraction d'information à partir de transcription de conversations téléphoniques spécialisées , 2005 .

[19]  Translation of Sentences by Analogy Principle , 2005 .

[20]  Wlodek Zadrozny,et al.  Natural Language Sales Assistant - A Web-Based Dialog System for Online Sales , 2001, IAAI.

[21]  Huberman,et al.  Strong regularities in world wide web surfing , 1998, Science.

[22]  Robert L. Mercer,et al.  The Mathematics of Statistical Machine Translation: Parameter Estimation , 1993, CL.

[23]  Christian Boitet,et al.  Polyphraz: a tool for the quantitative and subjective evaluation of parallel corpora , 2004, IWSLT.

[24]  Bob Carpenter,et al.  Natural language call routing: a robust, self-organizing approach , 1998, ICSLP.

[25]  Tadahiko Kumamoto Design and Implementation of Natural Language Interface for Impression-Based Music-Retrieval Systems , 2004, KES.

[26]  R. Ingold,et al.  Xed : un outil pour l'extraction et l'analyse de documents PDF , 2004 .

[27]  I D Bross,et al.  How information is carried in scientific sub-languages. , 1972, Science.

[28]  Ali A. Ghorbani,et al.  The ACORN multi-agent system , 2003, Web Intell. Agent Syst..

[29]  Hervé Blanchon,et al.  Speech translation for French in the NESPOLE! European project , 2001, INTERSPEECH.

[30]  John Cocke,et al.  A Statistical Approach to Machine Translation , 1990, CL.

[31]  Najeh Hajlaoui Multilinguïsation de services de gestion de contenu , 2007, Actes d'IC.

[32]  Hermann Ney,et al.  Improved Statistical Alignment Models , 2000, ACL.

[33]  Gerard Salton,et al.  The SMART Retrieval System—Experiments in Automatic Document Processing , 1971 .

[34]  Kuo-Chung Tai,et al.  The Tree-to-Tree Correction Problem , 1979, JACM.

[35]  Tyng-Luh Liu,et al.  Approximate tree matching and shape similarity , 1999, Proceedings of the Seventh IEEE International Conference on Computer Vision.

[36]  I. Dan Melamed,et al.  A Geometric Approach to Mapping Bitext Correspondence , 1996, EMNLP.

[37]  Tadahiko Kumamoto A Natural Language Dialogue System for Impression-based Music Retrieval , 2010, Polytech. Open Libr. Int. Bull. Inf. Technol. Sci..

[38]  Ellen Riloff,et al.  Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping , 1999, AAAI/IAAI.

[39]  Claire Cardie,et al.  Empirical Methods in Information Extraction , 1997, AI Mag..

[40]  Bernard Vauquois,et al.  Une Notation des textes hors des contraintes morphologiques et syntaxiques de L'expression , 1969, COLING.

[41]  Paul Buitelaar,et al.  Integrating Different Strategies for Cross-Language Information Retrieval in the MIETTA Project , 1998 .

[42]  Satoshi Sekine A New Direction for Sublanguage N. L. P. , 1995 .

[43]  Ellen Riloff,et al.  Automatically Generating Extraction Patterns from Untagged Text , 1996, AAAI/IAAI, Vol. 2.

[44]  Fabio Ciravegna,et al.  Adaptive Information Extraction from Text by Rule Induction and Generalisation , 2001, IJCAI.

[45]  Horacio Rodríguez,et al.  Combining Multiple Methods for the Automatic Construction of Multilingual WordNets , 1997, ArXiv.

[46]  Ralph Grishman,et al.  Automatic Acquisition of Domain Knowledge for Information Extraction , 2000, COLING.

[47]  Zellig S. Harris,et al.  Mathematical structures of language , 1968, Interscience tracts in pure and applied mathematics.

[48]  Stanley M. Selkow,et al.  The Tree-to-Tree Editing Problem , 1977, Inf. Process. Lett..

[49]  Dayne Freitag,et al.  Toward General-Purpose Learning for Information Extraction , 1998, ACL.

[50]  David Yarowsky,et al.  Inducing Information Extraction Systems for New Languages via Cross-language Projection , 2002, COLING.

[51]  John F. Sowa,et al.  Conceptual Structures: Information Processing in Mind and Machine , 1983 .

[52]  Peter Thanisch,et al.  Natural language interfaces to databases – an introduction , 1995, Natural Language Engineering.

[54]  Marilyn A. Walker,et al.  Learning Optimal Dialogue Strategies: A Case Study of a Spoken Dialogue Agent for Email , 1998, COLING-ACL.

[55]  Andreas Stolcke,et al.  SRILM - an extensible language modeling toolkit , 2002, INTERSPEECH.

[56]  David Yarowsky,et al.  Inducing Multilingual Text Analysis Tools via Robust Projection across Aligned Corpora , 2001, HLT.

[57]  Shin-Yee Lu A Tree-to-Tree Distance and Its Application to Cluster Analysis , 1979, IEEE Transactions on Pattern Analysis and Machine Intelligence.

[58]  Kaizhong Zhang,et al.  An Algorithm for Finding the Largest Approximately Common Substructures of Two Trees , 1998, IEEE Trans. Pattern Anal. Mach. Intell..

[59]  L. Goldfarb,et al.  Inductive learning with the evolving tree transformation system , 1996 .

[60]  Etienne Denoual,et al.  Méthodes en caractères pour le traitement automatique des langues. (Character-based methods for natural language processing) , 2006 .

[61]  Jimmy J. Lin,et al.  Comparative Evaluation of a Natural Language Dialog Based System and a Menu Driven System for Information Access: a Case Study , 2000, RIAO.

[62]  Michael J. Fischer,et al.  The String-to-String Correction Problem , 1974, JACM.

[63]  Wang-Ju Tsai La coédition langue UNL pour partager la révision entre langues d'un document multilingue. (Coedition Language UNL to share the postedition among languages in a multilingual document) , 2004 .

[64]  Douglas Biber,et al.  Using Register-Diversified Corpora for General Language Studies , 1993, Comput. Linguistics.

[65]  Christian Boitet,et al.  Speech translation for French within the c-STAR II consortium and future perspectives , 2000, INTERSPEECH.

[66]  Fabio Ciravegna,et al.  (LP) 2 , an Adaptive Algorithm for Information Extraction from Web-related Texts , 2001 .

[67]  Dan I. Moldovan,et al.  Acquisition of semantic patterns for information extraction from corpora , 1993, Proceedings of 9th IEEE Conference on Artificial Intelligence for Applications.

[68]  David Fisher,et al.  CRYSTAL: Inducing a Conceptual Dictionary , 1995, IJCAI.

[69]  Emmanuel Planas Tela : structures et algorithmes pour la traduction fondée sur la mémoire , 1998 .

[70]  Cédrick Fairon,et al.  Le langage SMS. Étude d'un corpus informatisé à partir de l’enquête «Faites don de vos sms à la science» , 2006 .

[71]  Christian Boitet,et al.  "Promesses et problèmes de la « TAO pour tous ». Après LIDIA-1, une première maquette" , 1994 .

[72]  Grace Ngai,et al.  Transformation Based Learning in the Fast Lane , 2001, NAACL.

[73]  Salim Roukos,et al.  Bleu: a Method for Automatic Evaluation of Machine Translation , 2002, ACL.

[74]  John Lehrberger,et al.  Automatic Translation and the Concept of Sublanguage , 1982 .

[75]  Christian Boitet,et al.  Towards Personal MT: general design, dialogue structure, potential role of speech , 1990, COLING.

[76]  Ellen Riloff,et al.  Automatically Constructing a Dictionary for Information Extraction Tasks , 1993, AAAI.

[77]  Christian Boitet,et al.  TA statistique à petits corpus pour des petits sous-langages , 2008 .