EDA : algorithme de désuffixation du langage médical

Pour améliorer l'efficacité des algorithmes de classification, il existe plusieurs algorithmes de préparation des données, dont la désuffixation. Cependant, le langage médical, et les comptes rendus hospitaliers sont rédigés dans un langage très technique, avec peu de formes flexionnelles. Nous nous sommes demandés si l'implémentation d'un algorithme de désuffixation dans ce contexte pouvait améliorer significativement les résultats obtenus. Nous avons mis en évidence qu'il était possible d'obtenir de meilleurs résultats que les algorithmes actuels d'une part en développant un algorithme spécifique basé sur un large corpus de documents, d'autre part en enrichissant ces derniers en fonction des racines lexicales des termes médicaux. Plusieurs algorithmes de désuffixation ont été proposés, les plus célèbres d'entre eux étant Porter (1980), Lovins (1968) et Paice (1996). Malheureusement, il s'agit d'algorithmes de désuffixation pour la langue anglaise, dont les dérivés morphologiques se prêtent facilement à ce type d'adaptation.