Apprentissage à partir d'exemples ambigus : étude théorique et application à la découverte de structures communes à un ensemble de séquences d'ARN
暂无分享,去创建一个
Nous etudions une classe de problemes d'apprentissage caracterisee par l'absence de contre-exemples, chaque exemple du concept cible etant represente de maniere ambigue par plusieurs descriptions dont une seule, a priori inconnue, est reelle. Le probleme pose est double puisqu'il s'agit d'apprendre les caracteristiques les plus specifiques communes aux exemples, ce qui revient implicitement a identifier ces derniers. Le principe de resolution est fonde sur la recherche de similarites repetees dont la distribution emerge des ressemblances aleatoires. Nous montrons que cette classe de problemes necessite une nouvelle definition de la completude et de la consistance, et qu'en fixant certaines limites a l'utilisation de la negation il est possible de construire une methode de resolution generale. Le probleme de la prediction de la structure secondaire commune a un groupe de sequences d'ARN relevant de cette classe, nous proposons de le resoudre avec la methode precitee. En l'occurrence nous construisons, pour chaque sequence, les plus grandes structures valides optimisant un critere d'energie directement correle a la plausibilite d'une structure, critere que l'on ne peut exploiter pour determiner directement la structure secondaire. Une representation originale permet de coder ces structures, ainsi que leurs sous-structures, sous la forme d'un dictionnaire, dont les plus longs prefixes qui satisfont un taux minimal de repetition designent les structures secondaires candidates que nous identifions au moyen d'un algorithme de complexite lineaire. Une mesure permet de classer les structures candidates en etablissant la plausibilite de chacune d'elles en fonction de son taux de repetition effectif dans les sequences, comparativement a son taux a priori, calcule sur des sequences aleatoires. Les premiers resultats sur plusieurs groupes de sequences sont encourageants puisque la structure secondaire a ete decouverte sans aucune information prealable.