Série Scientifique Scientific Series Stochastic Gradient Descent on a Portfolio Management Training Criterion Using the Ipa Gradient Estimator Stochastic Gradient Descent on a Portfolio Management Training Criterion Using the Ipa Gradient Estimator

In this paper, we set the basis for learning a multitype assets portfolio management technique relying on no assumptions over the distributions of the financial data. The neural network based model tries to capture patterns in the evolution of the market. Furthermore, the model allows a stochastic perturbation in the asset pricing from the network to avoid local maxima in the decision space. Under those settings, we prove that our investment decision is a Markovian decision process which is Lipschitz continuous almost surely in its parameters. Therefore, the IPA gradient estimator, obtained here by the classical backpropagation algorithm, can be used in a gradient descent procedure to converge to a local maximum of our learning criterion, the Sharpe ratio. Dans cet article, nous jetons les bases pour l'apprentissage d'une strategie de gestion d'un portefeuille de biens, de natures variees, et ne s'appuyant sur aucune supposition quant aux distributions des donnees financieres. Ce modele, base sur l'utilisation d'un reseau de neurones, tente de capturer les tendances du marche. De plus, le modele permet l'introduction d'un bruit stochastique au niveau des prix prevus par le reseau afin d'eviter les maxima locaux dans l'espace de decision. Dans ces conditions, nous demontrons que notre strategie d'investissement suit un processus de decision markovien qui est presque surement lipchitzien en ses parametres. Ainsi, l'estimateur du gradient IPA, obtenu ici par la methode classique de retropropagation, peut etre utilise pour approcher, par une descente de gradient, un maximum local de notre critere d'apprentissage, le Sharpe ratio.