Automatisation des tâches documentaires dans un catalogue de santé en ligne. (Automation of documentary tasks for an online health catalogue)

La Recherche d'Information a pour objectif de permettre aux utilisateurs d'acceder rapidement et efficacement au contenu d'une collection de document. Dans le domaine de la sante, le nombre de ressources electroniques disponibles augmente de maniere exponentielle, et la necessite de disposer de solutions automatiques se fait sentir a plusieurs etapes de la chaine d'information. Les documents, en particulier les textes, doivent etre selectionnes selon des criteres de qualite pour etre inclus dans des catalogues; ils doivent egalement etre decrits a l'aide de mots cles et categorises en specialites medicales afin de faciliter les recherches effectuees dans les catalogues. Ces taches constituent un defi pour le Traitement Automatique de la Langue Naturelle car elles impliquent une "comprehension" du contenu des documents par un systeme automatique. Ce travail de these engage une reflexion sur la repartition des tâches documentaires entre l'homme et la machine dans le cadre particulier du Catalogue et Index des Sites Medicaux Francophones (CISMeF). A ce titre, il aborde l'automatisation des tâches documentaires dans le catalogue de sante en ligne CISMeF. Cette these apporte une contribution au developpement de ressources linguistiques en francais pour le domaine de la sante, et presente des systemes de veille documentaire et de description automatiques de ressources de sante. Sur ce dernier point, l'accent a ete mis sur l'indexation a l'aide de paires de descripteurs issues du thesaurus MeSH.

[1]  R. Côté Systematized nomenclature of human and veterinary medicine : SNOMED international , 1993 .

[2]  Thomas Hofmann,et al.  Hierarchical document categorization with support vector machines , 2004, CIKM '04.

[3]  X. Blanco,et al.  Vers une structuration syntactico-sémantique de la terminologie médicale : Applications à la traduction espagnol-français , 1998 .

[4]  A. Lelu,et al.  Hypertextualisation automatique multilingue à partir des fréquences des n-grammes , 1997 .

[5]  Jean V ronis Parallel Text Processing: Alignment and Use of Translation Corpora , 2002 .

[6]  Pierre Zweigenbaum,et al.  Vers une combinaison de méthodologies pour la structuration de termes en corpus. Premier pas vers des ontologies dédiées à l'indexation de documents audiovisuals , 2005 .

[7]  Vladimir I. Levenshtein,et al.  Binary codes capable of correcting deletions, insertions, and reversals , 1965 .

[8]  Robert H. Baud,et al.  UMLF : construction d'un lexique médical francophone unifié , 2003 .

[9]  Robert Krovetz,et al.  Viewing morphology as an inference process , 1993, Artif. Intell..

[10]  Nicola Guarino UNDERSTANDING, BUILDING, AND USING ONTOLOGIES , 1997 .

[11]  E. Rosch,et al.  Family resemblances: Studies in the internal structure of categories , 1975, Cognitive Psychology.

[12]  Thomas R. Gruber,et al.  A Translation Approach to Portable Ontologies , 1993 .

[13]  K. Markey Interindexer consistency tests: a literature review and report of a test of consistency in indexing visual materials , 1984 .

[14]  Robert M. Hayes The SMART retrieval system; experiments in automatic document processing: Edited by Gerard Salton, Prentice-Hall, Englewood Cliffs, New Jersey, 1971. 556 pages , 1973 .

[15]  Aurélie Névéol,et al.  Extraction bilingue de termes médicaux dans un corpus parallèle anglais/français , 2005, EGC.

[16]  Joseph B. Kruskal,et al.  Time Warps, String Edits, and Macromolecules , 1999 .

[17]  James D. Anderson,et al.  The nature of indexing: how humans and machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing , 2001, Inf. Process. Manag..

[18]  Max Silberztein,et al.  Dictionnaires électroniques et analyse automatique de textes : le système intex , 1993 .

[19]  Kenneth Ward Church,et al.  Identifying Word Correspondences in Parallel Texts , 1991, HLT.

[20]  Lina Fatima Soualmia,et al.  Using CISMeF MeSH "Encapsulated" terminology and a categorization algorithm for health resources , 2004, Int. J. Medical Informatics.

[21]  Michael McGill,et al.  Introduction to Modern Information Retrieval , 1983 .

[22]  Elisabeth Métais,et al.  Evaluation: nouvelle approche avec juges , 2005, INFORSID.

[23]  Stéfan Jacques Darmoni,et al.  A Benchmark Evaluation of the French MeSH Indexing Systems , 2005 .

[24]  Olivier Bodenreider,et al.  Using UMLS semantics for classification purposes , 2000, AMIA.

[25]  François Parmentier Spécification d'une architecture émergente fondée sur le raisonnement par analogie. Application aux références bibliographiques , 1998 .

[26]  Shane S. Sturrock,et al.  Time Warps, String Edits, and Macromolecules – The Theory and Practice of Sequence Comparison . David Sankoff and Joseph Kruskal. ISBN 1-57586-217-4. Price £13.95 (US$22·95). , 2000 .

[27]  Susan T. Dumais,et al.  Inductive learning algorithms and representations for text categorization , 1998, CIKM '98.

[28]  Gerard Salton,et al.  Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer , 1989 .

[29]  Peter Willett,et al.  The Effectiveness of Stemming for Natural-Language Access to Slovene Textual Data , 1992, J. Am. Soc. Inf. Sci..

[30]  André Salem,et al.  La typologie des segments répétés dans un corpus, fondée sur l'analyse d'un tableau croisant mots et textes , 1984 .

[31]  Thierry Fontenelle Dictionnaire explicatif et combinatoire du français contemporain. Recherches lexico‐sémantiques (Volume 4.) , 2002 .

[32]  Rodrigo A. Botafogo Cluster analysis for hypertext systems , 1993, SIGIR.

[33]  Aurélie Névéol Indexation automatique de ressources de santé à l’aide d’un vocabulaire contrôlé , 2004, JEPTALNRECITAL.

[34]  R. Rosenfeld,et al.  Two decades of statistical language modeling: where do we go from here? , 2000, Proceedings of the IEEE.

[35]  Pierre Lenoir,et al.  Réalisation, développement et maintenance de la base de données ADM. , 1981 .

[36]  Jean-Cédric Chappelier,et al.  Improving Text representations through Probabilistic Integration of Synonymy Relations , 2001 .

[37]  Robert H. Baud,et al.  Latent Argumentative Pruning for Compact MEDLINE Indexing , 2005, AIME.

[38]  Hermann Ney,et al.  A Systematic Comparison of Various Statistical Alignment Models , 2003, CL.

[39]  Aurélie Névéol,et al.  Traduction compositionnelle automatique de bitermes dans des corpus anglais/français alignés , 2005 .

[40]  M. Slodzian Comment revisiter la doctrine terminologique aujourd'hui ? , 1995 .

[41]  Susanne M. Humphrey,et al.  The NLM Indexing Initiative's Medical Text Indexer , 2004, MedInfo.

[42]  Natalia Grabar,et al.  Application d'algorithmes de classification automatique pour la détection des contenus racistes sur l'Internet , 2003 .

[43]  Marius Fieschi,et al.  Refinement of an Automatic Method for Indexing Medical Literature - a Preliminary Study , 2005, MIE.

[44]  Hinrich Schütze,et al.  Book Reviews: Foundations of Statistical Natural Language Processing , 1999, CL.

[45]  Richard A. Harshman,et al.  Indexing by Latent Semantic Analysis , 1990, J. Am. Soc. Inf. Sci..

[46]  J Fowler,et al.  Automated MeSH indexing of the World-Wide Web. , 1995, Proceedings. Symposium on Computer Applications in Medical Care.

[47]  Christian Jacquemin FASTR : A Unification-Based Front-End to Automatic Indexing , 1994, RIAO.

[48]  Stefan Schulz,et al.  Cross-language MeSH Indexing using Morpho-Semantic Normalization , 2003, AMIA.

[49]  M E Funk,et al.  Indexing consistency in MEDLINE. , 1983, Bulletin of the Medical Library Association.

[50]  S J Darmoni,et al.  CISMeF: A Structured Health Resource Guide , 2000, Methods of Information in Medicine.

[51]  Bénédicte Pincemin,et al.  Diffusion ciblée automatique d'informations : conception et mise en oeuvre d'une linguistique textuelle pour la caractérisation des destinataires et des documents , 1999 .

[52]  Bruno Pouliquen,et al.  Automatic conceptual indexing of French pharmaceutical theses. , 2002, Studies in health technology and informatics.

[53]  Sylwia Ozdowska Appariement bilingue de mots par propagation syntaxique à partir de corpus français/anglais alignés , 2004 .

[54]  Fred J. Damerau,et al.  A technique for computer detection and correction of spelling errors , 1964, CACM.

[55]  Agata Savary Recensement et description des mots composés - méthodes et applications , 2000 .

[56]  David Ellis,et al.  Inter-linker consistency in the manual construction of hypertext documents , 1999, CSUR.

[57]  Thierry Poibeau Parcours interprétatifs et terminologie , 2005 .

[58]  Ian H. Witten,et al.  Text categorization using compression models , 2000, Proceedings DCC 2000. Data Compression Conference.

[59]  Alfred J. Lotka,et al.  The frequency distribution of scientific productivity , 1926 .

[60]  D. Bourigault Lexter : un Logiciel d'EXtraction de TERminologie : application à l'acquisition des connaissances à partir de textes , 1994 .

[61]  Magnus Merkel,et al.  A knowledge-lite approach to word alignment , 2000 .

[62]  Z. Harris A Theory of Language and Information: A Mathematical Approach , 1991 .

[63]  Julie Beth Lovins,et al.  Development of a stemming algorithm , 1968, Mech. Transl. Comput. Linguistics.

[64]  W. John Wilbur,et al.  The Dimensions of Indexing , 2003, AMIA.

[65]  Agostino Poggi,et al.  Multiagent Systems , 2006, Intelligenza Artificiale.

[66]  Eric Gaussier,et al.  General considerations on bilingual terminology extraction , 2001 .

[67]  A. McCray The UMLS Semantic Network. , 1989 .

[68]  B Thirion,et al.  Level of Evidence as a Future Gold Standard for the Content Quality of Health Resources on the Internet , 2003, Methods of Information in Medicine.

[69]  D. Bourigault,et al.  Approche linguistique pour l'analyse syntaxique de corpus , 2000 .

[70]  Annick Bertrand Compréhension et catégorisation dans une activité complexe : l'indexation de documents scientifiques , 1993 .

[71]  Vassilios Chrissikopoulos,et al.  A Text Categorization Technique based on a Numerical Conversion of a Symbolic Expression and an Onion Layers Algorithm , 2006, J. Digit. Inf..

[72]  Fiammetta Namer Morphosémantique pour l'appariement de termes dans le vocabulaire médical : Approche multilingue , 2005 .

[73]  Sylwia Ozdowska Identifying Correspondences Between Words: an Approach Based on a Bilingual Syntactic Analysis of French/English Parallel Corpora , 2004 .

[74]  Timo Lahtinen,et al.  Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods , 2000 .

[75]  F. Rastier Le terme : Entre ontologie et linguistique , 1995 .

[76]  Fiammetta Namer FLEMM : Un analyseur flexionnel du français à base de règles , 2000 .

[77]  Kurt Baldinger,et al.  Vers une semantique moderne , 1986 .

[78]  Vladimir Vapnik,et al.  Statistical learning theory , 1998 .

[79]  Loll N. Rolling Indexing consistency, quality and efficiency , 1981, Inf. Process. Manag..

[80]  Karen Spärck Jones Reflections on TREC , 1995, Inf. Process. Manag..

[81]  Alan R. Aronson,et al.  Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program , 2001, AMIA.

[82]  Martin F. Porter,et al.  An algorithm for suffix stripping , 1997, Program.

[83]  Andreas S. Weigend,et al.  A neural network approach to topic spotting , 1995 .

[84]  David J. Harper,et al.  Using compression based language models for text categorization. , 2003 .

[85]  Olivier Bodenreider,et al.  Beyond synonymy: exploiting the UMLS semantics in mapping vocabularies , 1998, AMIA.

[86]  Lawrence E. Leonard,et al.  Inter-indexer consistency studies, 1954-1975: a review of the literature and summary of study results , 1977 .

[87]  Christian Jacquemin,et al.  Retrieving terms and their variants in a lexicalized unification-based framework , 1994, SIGIR '94.

[88]  Robert H. Baud,et al.  VUMeF: Extending the French Involvement in the UMLS metathesaurus , 2003, AMIA.

[89]  Claire David,et al.  Inedxing as Problem Solving: A Cognitive Approach to Consistency , 2013 .

[90]  W. John Wilbur,et al.  Automatic MeSH term assignment and quality assessment , 2001, AMIA.

[91]  Sebastian Thrun,et al.  Text Classification from Labeled and Unlabeled Documents using EM , 2000, Machine Learning.

[92]  William B. Dolan,et al.  Less is more: Eliminating index terms from subordinate clauses , 1999, ACL.

[93]  Dagobert Soergel,et al.  Indexing and Retrieval Performance: The Logical Evidence , 1994, J. Am. Soc. Inf. Sci..

[94]  Jacques Ferber,et al.  Les Systèmes multi-agents: vers une intelligence collective , 1995 .

[95]  Natalia Grabar,et al.  Automatic acquisition of domain-specific morphological resources from thesauri , 2000 .

[96]  M. Silberztein,et al.  Dictionnaires électroniques du français , 1990 .

[97]  Myriam Bouveret,et al.  Lexical functions to represent derivational relations , 2003 .

[98]  M. Bunge Sense and reference , 1974 .

[99]  María Teresa Cabré Terminología y lingüística: la teoría de las puertas , 2002 .

[100]  Mónica Bécue-Bertaut,et al.  Comparaison des structures induites sur un ensemble de réponses ouvertes par le choix de l’unité statistique , 2003 .

[101]  Thorsten Joachims,et al.  Text Categorization with Support Vector Machines: Learning with Many Relevant Features , 1998, ECML.

[102]  Stefan Wermter,et al.  Predictive Top-Down Knowledge Improves Neural Exploratory Bottom-Up Clustering , 2004, ECIR.

[103]  Robert H. Baud,et al.  Learning-Free Text Categorization , 2003, AIME.

[104]  Martha W. Evens,et al.  Comparing words, stems, and roots as index terms in an Arabic Information Retrieval System , 1994 .

[105]  Stéfan Jacques Darmoni,et al.  Evaluation of French and English MeSH Indexing Systems with a Parallel Corpus , 2005, AMIA.

[106]  Adeline Nazarenko,et al.  L'index de fin de livre, une forme de résumé indicatif ? : Résumé automatique de textes , 2004 .

[107]  Linda Fatima Soualmia,et al.  Knowledge-Based Query Expansion over a Medical Terminology Oriented Ontology on the Web , 2004 .

[108]  Wai Lam,et al.  Automatic Text Categorization and Its Application to Text Retrieval , 1999, IEEE Trans. Knowl. Data Eng..

[109]  Stephen E. Robertson,et al.  A probabilistic model of information retrieval: development and comparative experiments - Part 1 , 2000, Inf. Process. Manag..

[110]  Alexandre Pauchet,et al.  Modélisation cognitive d'interactions humaines dans un cadre de planification multi-agents , 2006 .

[111]  Virginia A. Lingle,et al.  Indexing and Abstracting in Theory and Practice , 2005 .

[112]  W. Bruce Croft,et al.  Combining classifiers in text categorization , 1996, SIGIR '96.

[113]  Thomas Baker,et al.  A Grammar of Dublin Core , 2000, D Lib Mag..

[114]  Marius Fieschi,et al.  WRAPIN: New Generation Health Search Engine Using UMLS Knowledge Sources for MeSH Term Extraction from Health Documentation , 2004, MedInfo.

[115]  Olivier Dameron Modélisation, représentation et partage de connaissances anatomiques sur le cortex cérébral , 2003 .

[116]  James Ho,et al.  Hyperlink Obsolescence in Scholarly Online Journals , 2006, J. Comput. Mediat. Commun..

[117]  Yiming Yang,et al.  An example-based mapping method for text categorization and retrieval , 1994, TOIS.

[118]  Wessel Kraaij,et al.  Viewing stemming as recall enhancement , 1996, SIGIR '96.

[119]  Pierre Zweigenbaum,et al.  Looking for Candidate Translational Equivalents in Specialized, Comparable Corpora , 2002, COLING.