Prononcer par analogie : motivation, formalisation et evaluation

La transcription de textes ecrits en la sequence de phonemes correspondante est une etape importante dans de nombreuses applications du traitement automatique du langage et de la parole. Cette operation est traditionnellement realisee par des systemes de regles de recriture dependant du contexte, auxquels sont adjoints, dans des proportions variables, des dictionnaires stockant les formes phonetiques des lexies les plus communes et/ou les plus exceptionnelles. Tirant les consequences de la grande difficulte de conception que posent ces systemes de regles, des limites intrinseques de l'approche par regle, et, par contraste, de la disponibilite croissante de vastes lexiques phonetiques, en particulier de noms propres, et de procedure permettant de les exploiter efficacement, ce travail envisage le developpement de methodes d'apprentissage de systemes de transcriptions a partir de connaissances lexicales. Nous procedons dans un premier temps a une revue critique des multiples approches classificatoires de ce probleme, qui considere cet apprentissage sous l'angle de l'inference de fonctions discriminantes statistiques (reseaux de neurones, arbres de decision, plus proches voisins, etc). Dans cette optique, le lexique est essentiellement considere comme un ensemble de lettres, chaque lettre etant appariee avec le phoneme correspondant, a partir duquel il s'agit d'inferer des regles de classement des symboles graphiques. Les problemes pratiques et theoriques qu'une telle demarche souleve sont passes en revue et illustres par de nombreux resultats obtenus a l'aide d'une methode d'extraction d'arbres de decision. Une premiere alternative aux systemes classificatoires est ensuite developpee, qui consiste a envisager la transcription des mots hors-lexique par recombinaison (exemplairement la juxtaposition) de fragments de taille variable d'entrees lexicales. Nous etendons les algorithmes existants, et proposons plusieurs mecanismes de construction et d'evaluation des multiples recombinaisons envisageables. Le principal resultat de cette etude est la definition d'un critere structurel d'evaluation des transcriptions, fonde sur le concept de recouvrement entre fragments adjacents, et a l'aide duquel nous obtenons des performances significativement meilleures que celles obtenues avec un algorithme classificatoire de reference. Une seconde alternative aux systemes classificatoires est finalement presejtee, au fondement de laquelle l'idee que les lexiaues de langage naturel sont bien plus que des collections d'objets independants, mais possedent un mode d'organisation extremement riche que nous cherchons a capturer a travers le concept de paradigme. Dans cette nouvelle optique, les chaines graphiques hors-lexiques sont prononcees en deux temps. Une premiere etape consiste a leur appliquer des recritures hors-contexte judicieusement choisies, de maniere a reconstituer une ou des lexies existantes (les lexies analogues). Ces recritures, qui correspondent exemplairement a des derivations morphologiques, sont extraites automatiquement du lexique d'exemples. Le second temps de la procedure consiste a appliquer en retour aux transcriptions des analogues des transformations non-contextuelles dans le domaine phonetique, transformations qui ont prealablement ete couplees aux transformations graphiques utilisees dans l'etape de recherche des analogues. Nous montrons les benefices d'un tel changement d'optique, aussi bien en terme de modelisation des phenomenes analogiques, de pertinence lingustique, et de qualite des transcriptions produites. Des experiences complementaires dans lesquelles une telle demarche est appliquee avec succes a l'apprentissage de la conjugaison des verbes anglais sont egalement presentees.