Deep Learning for Reinforcement Learning in Pacman Deep Learning für Reinforcement Learning in Pacman

The curse of dimensionality is a common problem for numerous machine learning methods when they are confronted with high-dimensional data. In order to deal with this problem a popular approach is the introduction of features vectors as a high-level abstraction of the input data. Designing task-specific features by hand is often very challenging and not very cost-efficient since a set of features that provides a good representation of the data for a task is usually worthless for all other tasks. Therefore, automatic feature learning is desirable. An interesting and successful approach for processing high-dimensional data hierarchically, that goes by the name of deep learning, was introduced in 2006 and has gained a lot of popularity since then. In this thesis, the applicability of the combination of deep learning and reinforcement learning is analysed on the task of learning to play the game Pacman. In order to achieve this, initially a feature representation of observations of Pacman game states is learned using a deep learning method. This feature representation is subsequently used to approximate the value functions of two reinforcement learning algorithms, Qlearning and least-squares policy iteration. While Q-learning yielded disappointing experimental results, the learning performance when using the least-squares policy iteration algorithm shows that deep learning can indeed be successfully used to learn features for reinforcement learning methods. Zusammenfassung Der exponentielle Anstieg der Größe des Zustandsraums ist ein häufiges Problem für viele Methoden des maschinellen Lernens, wenn mit hochdimensionalen Daten gearbeitet wird. Als Lösungsansatz für dieses Problem werden häufig Merkmalsvektoren eingeführt, die eine Abstraktion der Eingangsdaten auf hoher Ebene bilden. Diese charakterisierenden Merkmale für jede neue Aufgabe von Hand zu konzipieren erweist sich häufig als schwierig und ist zudem nicht sehr kosteneffizient, da ein Merkmalsvektor, der für die Daten einer Aufgabe eine sehr gute Repräsentation liefert, in der Regel für alle anderen Aufgaben nutzlos ist. Aus diesem Grund ist das automatische Lernen von Merkmalen wünschenswert. Ein interessanter und erfolgreicher Ansatz um hochdimensionalie Daten hierarchisch zu verarbeiten, der Tiefes Lernen genannt wird, wurde 2006 eingeführt und wird seitdem immer populärer. In dieser Thesis wird die Eignung der Kombination aus Tiefem Lernen und Verstärkendem Lernen analysiert indem versucht wird, das Spiel Pacman zu lernen. Um dies durchzuführen wird zunächst ein Merkmalsvektor, der Beobachtungen von Zuständen des Pacman-Spiels repräsentieren soll, mithilfe einer Methode des Tiefen Lernerns konstruiert. Dieser Merkmalsvektor wird daraufhin verwendet um die Wertefunktionen von zwei Algorithmen des Bestärkenden Lernens, Q-learning und least-squares policy iteration, zu approximieren. Während Q-learning enttäuschende Resultate Versuchsergebnisse einbrachte zeigt das Abschneiden des least-squares policy iteration Algorithmus, dass Tiefes Lernen tatsächlich erfolgreich angewendet werden kann, um automatisch Merkmalsvektoren für Methoden des Bestärkenden Lernens zu erstellen.

[1]  C. Watkins Learning from delayed rewards , 1989 .

[2]  Michail G. Lagoudakis,et al.  Model-Free Least-Squares Policy Iteration , 2001, NIPS.

[3]  Michail G. Lagoudakis,et al.  Least-Squares Policy Iteration , 2003, J. Mach. Learn. Res..

[4]  Peter Dayan,et al.  Q-learning , 1992, Machine Learning.

[5]  Geoffrey E. Hinton,et al.  Reducing the Dimensionality of Data with Neural Networks , 2006, Science.

[6]  Thomas Hofmann,et al.  Greedy Layer-Wise Training of Deep Networks , 2007 .

[7]  Francisco S. Melo,et al.  Convergence of Q-learning with linear function approximation , 2007, 2007 European Control Conference (ECC).

[8]  Yoshua. Bengio,et al.  Learning Deep Architectures for AI , 2007, Found. Trends Mach. Learn..

[9]  Yoshua Bengio,et al.  Extracting and composing robust features with denoising autoencoders , 2008, ICML '08.

[10]  Martin A. Riedmiller,et al.  Deep auto-encoder neural networks in reinforcement learning , 2010, The 2010 International Joint Conference on Neural Networks (IJCNN).

[11]  Pascal Vincent,et al.  Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion , 2010, J. Mach. Learn. Res..

[12]  Martin A. Riedmiller,et al.  Autonomous reinforcement learning on raw visual input data in a real world application , 2012, The 2012 International Joint Conference on Neural Networks (IJCNN).

[13]  Jafar Keighobadi,et al.  Application of neuro-wavelet algorithm in ultrasonic-phased array nondestructive testing of polyethylene pipelines , 2012 .

[14]  Alex Graves,et al.  Playing Atari with Deep Reinforcement Learning , 2013, ArXiv.