论文信息 - EDA : algorithme de désuffixation du langage médical

EDA : algorithme de désuffixation du langage médical

Pour améliorer l'efficacité des algorithmes de classification, il existe plusieurs algorithmes de préparation des données, dont la désuffixation. Cependant, le langage médical, et les comptes rendus hospitaliers sont rédigés dans un langage très technique, avec peu de formes flexionnelles. Nous nous sommes demandés si l'implémentation d'un algorithme de désuffixation dans ce contexte pouvait améliorer significativement les résultats obtenus. Nous avons mis en évidence qu'il était possible d'obtenir de meilleurs résultats que les algorithmes actuels d'une part en développant un algorithme spécifique basé sur un large corpus de documents, d'autre part en enrichissant ces derniers en fonction des racines lexicales des termes médicaux. Plusieurs algorithmes de désuffixation ont été proposés, les plus célèbres d'entre eux étant Porter (1980), Lovins (1968) et Paice (1996). Malheureusement, il s'agit d'algorithmes de désuffixation pour la langue anglaise, dont les dérivés morphologiques se prêtent facilement à ce type d'adaptation.

Elisabeth Métais | Didier Nakache | Annabelle Dierstein

[1] F Grémy,et al. Morpho-semantic analysis and translation of medical compound terms. , 1991, Methods of information in medicine.

[2] Chris D. Paice. Method for Evaluation of Stemming Algorithms Based on Error Counting , 1996, J. Am. Soc. Inf. Sci..