Labeling Q-learning with SOM