L'apprentissage par renforcement (RL) pour les processus decisionnels de Markov partiellement observables decentralises (Dec-POMDPs) accuse un certain retard par rapport aux progres spectaculaires du RL mono-agent. Ceci s'explique en partie par un certain nombre d'hypotheses valables dans le cadre mono-agent, mais invalides dans les systemes multi-agents. Pour combler ce retard, nous explorons les fondements mathematiques des methodes par ascension du gradient de la politique dans le paradigme de l'entrainement centralise pour un controle decentralise (CTDC). Dans ce paradigme, l'apprentissage peut avoir lieu de facon centralisee tout en gardant la contrainte d'une execution decentralisee. En partant de cette intuition , nous etablissons dans ce document une extension multi-agents du theoreme du gradient de la politique et du theoreme de compatibilite des fonctions d'approximation de la valeur. Nous en tirons des methodes « acteur critique » (AC) qui parviennent (i) a estimer le gradient de la politique a partir d'experiences collectives mais aussi (ii) a preserver le controle decentralise du systeme a l'execution. Nos experimentations montrent que nos methodes ne souffrent pas de la comparaison avec les techniques standard en RL sur un ensemble de bancs de test de la litterature.