Apprentissage par renforcement indirect dans les systèmes de classeurs

Les systemes de classeurs sont des systemes a base de regles qui combinent une capacite d'apprentissage par renforcement et une capacite de generalisation. Au lieu d'associer des valeurs a des couples (etat, action), comme c'est le cas dans le cadre de l'apprentissage par renforcement tabulaire, ils associent des valeurs a des couples (condition, action), dans lesquels la partie condition peut etre verifiee par plusieurs etats, ce qui permet la generalisation. Les mecanismes d'apprentissage par renforcement habituels peuvent alors etre appliques a une telle representation. Recemment, une nouvelle famille de systemes de classeurs, dits « a anticipation », est apparue, dans laquelle l'apprentissage par renforcement realise est un apprentissage indirect, ce qui signifie que l'agent construit un modele de ses interactions avec son environnement, et se sert de ce modele pour accelerer la convergence de l'apprentissage. Les architectures de la famille DYNA sont toutes construites sur ce modele. L'object de cette contribution est de presenter un systeme de classeurs a anticipation, MACS, et de montrer comment on peut considerer MACS comme un cas particulier de la famille des architectures DYNA.