Learning System Using Fuzzy ART for Two-Player Games

Adaptive resonance theory neural network (ART) is an unsupervised learning system that can generate and grow the recognition categories based on the similarity between inputs and memories. By this feature, ART can solve the Stability-Plasticity Dilemma. In this report, we propose a learning system for two player games that actions or strategies of opponents change constantly. In the proposed system, an input state space is segmented adaptively by Fuzzy ART neural networks and then a player learns an input state-action pairs by the reinforcement learning. We applied the proposed system to a fighting action game that two players fight while selecting actions. As results of experiments, we show that the player acquired proper actions against opponents. 1 はじめに 対戦型ゲームでは, プレーヤは互いの手の出し方から 相手の戦略を読み, それに応じて自分の戦略を決定する. 同様に, 対戦相手も戦略を進化させていくため, 対戦で 起こりうる状況, その状況における最適な行動戦略は常 に変化していくと考えられる. このような動的環境にお いては, 現在の対戦相手の戦略に対する適応 (新しい事 象を学習する可塑性)と, これまでに獲得した戦略の保 持 (安定性)のバランスをとりながら学習していくこと が重要であると考える. そこで本研究では, 動的環境である対戦型ゲームにお いて, 対戦相手の戦略変化に適応可能な学習システム を提案する. 提案システムでは, ファジィART[1, 2]に よって分類された記憶のカテゴリがプレーヤに状態と して与えられる. そして, 経験強化型の強化学習法の 1つである profit sharingを用い, 分類された状態空間 に対応する行動選択を最適化する. 対戦環境は fighting action game[3]とし, 提案システムにより学習を行う学 習プレーヤと, 複数の行動パターンを持つ敵プレーヤと の対戦実験を行う. 実験結果より, 学習プレーヤは敵プ レーヤに対し適応的な戦略学習をできることを示す. 2 ファジィARTニューラルネットワーク ファジィARTはアナログ入力に対応可能なARTモデ ルであり,入力層とカテゴリ層から構成されている. ファ ジィARTの構造を図 1に示す. F1ニューロン iと F2 ニューロン jはボトムアップ荷重wijとトップダウン荷重 wjiによって相互結合しており, wij = wjiを満足する. また, トップダウン荷重ベクトル wj = [wj1, · · · , wjn] は F2 ニューロン jに属する記憶である. 荷重ベクトル の初期値は以下のように設定する. wji = · · · = wjm = 1 (1) 1 j m ・・・ ・・・ 1 i n ・・・ ・・・ w ij wji