The authors think that constructing the whole process from sensors to motors by a neural network and learning it by reinforcement learning enable to realize autonomous, purposive, harmonious and parallel function emergence. Recently, some flexible learning systems using a neural network and reinforcement learning have been proposed. However, the learning module does not usually process the whole, but there exists some inflexible module other than the flexible learning module. In this paper, a recurrent neural network connects sensors and motors directly, and is trained by reinforcement learning. The authors claim that the system has the ability to learn the control considering various factors flexibly and in parallel according to necessity. In a simulated thrown-up-ball catching task, it is shown that adaptability to a constant external force and compensation of random external forces together with the generation of context-considered behaviors due to the use of a recurrent network emerge through learning. 1, まえがき 1.1 強化学習とニューラルネットの組み合わせ 近年、報酬や罰などの少ない情報をもとに、報酬を得 て、罰を避ける合目的的な行動を、試行錯誤を通して自 律的に学習する強化学習が注目を集めている。強化学習 は、ロボットの行動学習でもその有効性が示されている [1][2]が、行動生成の学習に重点が置かれ、認識などの行 動以外の機能とは切り離されて使用される傾向にあった。 しかし、ロボット内部で行われる処理の目的を改めて 考えると、センサからの信号に基づいて、状況に応じた 適切な信号をモータ(アクチュエータ)へ出力すること、 つまり、センサからモータへのプロセスを何らかの評価 基準で最適化することと考えられる。このような考え方 に立つと、より報酬を得て、罰を避けるという明確な評 価基準で学習する強化学習を用いれば、センサからモー タまでのあらゆるプロセスの自律的、合目的的、かつ調 和的な最適化が可能ではないかと著者らは考えている [3]。また、われわれ人間は、脳という超並列で柔軟な学 習システムを持つ。今まで多くの研究が柔軟な認識、制 御を目指したにも関わらず、人間のように、フレーム問 題[4]に惑わされず、さまざまなことを並列に考慮し、か つ、瞬時に判断できる能力がなかなか実現できないのは、 このシステムアーキテクチャの差も大きいのではないか と考えている。そして実際に、ロボットのセンサからモ ータまでをニューラルネットで構成し、6 千個のカラー 視覚センサ信号を直接ニューラルネットに入れ、単にあ る物体への到達に対して報酬を与えて学習させるだけで、 ロボットがさまざまな見え方の下で明るさや背景によら ない物体の認識をある程度獲得することを示した[5]。 1.2 柔軟な制御の学習 柔軟な制御の学習としては、ニューラルネットがフィ ードフォワード制御を学習するフィードバック誤差学習 が挙げられる[6]。また、過去の状態や制御入力を入力に 追加することで、フィードバック制御も学習できる[7]。 近年は、強化学習を利用したものも提案され、acrobot や歩行などの制御の学習で有効性が示されている[8][9]。 しかしながらこれらは、与えられた目標軌道への追従を 目的としたり、逆に目標軌道を学習システムの出力にし て外部に別のフィードバック制御モジュールを置いたり しており、さまざまな状況を並列に考慮し、フィードバ ックも含めた柔軟な制御を獲得することが目的ではない。 制御における並列性という点では、Brooks の Subsumption architecture[10]による柔軟な制御が有名 であり、並列性が俊敏性、柔軟性を生み、フレーム問題 の解決にも有効であることが示された。しかしながら、 並列に配置されたモジュール間の関係は設計者にゆだね られている。モジュールが増えれば、これは難しい問題 となるであろうし、逆に人間が与えてしまうと、柔軟性 を阻害する恐れがある。したがって、人間のような柔軟 な制御システムを構築するためには、やはり並列システ ム全体を学習によって獲得していくことが必要であると 考えている。過去に著者の一部は、2 関節マニュピレー タのリーチング運動の学習において、hand-eye coordination、フィードフォワード制御、そして、フィードバ ック制御が学習できることを示唆している[11]。 そこで本研究では、リカレントニューラルネットと強 化学習を用い、飛んでくるボールが落ちたところの近く に行くとしばらく報酬がもらえ、さらに外力がかかる環 境でタスクの学習を行った。こうすることで、落ちてく るボールの位置予測をしながら、そこへ向かう運動の生 成と、外力の影響を小さくする制御が求められる。そし て、リカレントネットを用いることにより、文脈を考慮 した行動計画ができるようになると同時に、一定の外力 に対する適応能力、ランダムな外力に対する補償能力も 学習によって獲得されることを示す。 なお、ここでは目標軌道は陽には与えられないので、 予期せぬ変化に対する短期的な行動の変化をフィードバ ック制御と呼び、学習による長期的な適応をフィードフ ォワード制御と呼ぶ。 2. 学習方法 ロボットは、センサ信号をリカレントニューラルネッ トに入力し、動作信号をモータに出力する。使用するリ カレントニューラルネットは、出力ニューロンを含めた すべてのニューロンが入力信号と出力ニューロンを除く 他のニューロンからの信号を入力し、その重み付け総和 を 0から 1の値域を持つシグモイド関数を通して出力す る。また、信号伝達に、1ステップ(単位時間)の時間が経 過するとした。ニューラルネットには、毎ステップ強化 学習に基づいて計算された教師信号が与えられ、 BPTT(Back Propagation Through Time)によって時間 をさかのぼって学習される。強化学習として、連続動作 に対応している actor-critic[12]を用いた。出力ニューロ ンは 2個とし、一つは critic、もう一つは actor とした。 また、actorの出力 atから 0.5 を引いて 0 対称になるよう にし、そこに確率的な行動生成のための乱数 rndtを加え、 それを定数倍してモータへの動作信号とした。criticの出 力に対しては、現在の criticの出力 Vtとそのとき得られ た報酬 rtを使って、一つ前の時刻の criticの値に対する 教師信号 Vs,t-1を次式に従って生成する。 ) ( 1 ) 1 ( 1 , t x V rt r t t x V V t s γ + = − + − = − ) (1) ただし、 ( ) ( ) 1 1 ˆ − − + = − t x V t x V t r t r γ (2) は TD誤差であり、γは割引率である。前の時刻の actor の出力 ( ) 1 − t x a に対する教師信号 1 , − t s a は、TD誤差 1 − t r と、 そのとき actorの出力に加えた乱数ベクトル 1 − t rnd から ( ) rnd t r t xt a a t s 1 1 1 1 , − − + − = − ) r α (3) と計算する。ただし、αは定数である。 また、ここでは、連続的に報酬が得られるタスクとし たので、ニューラルネットで学習することを考慮して、 無限に最大報酬 rmaxをもらい続けたときの critic の理想 値が 0.9になるように、最大報酬を ( ) γ − = 1 9 . 0 max r (4) と決めた。今回は、γを 0.9としたため、最大報酬は rmax は 0.09と設定した。 3. 問題設定 本研究では、Fig.1のように、玉は初期位置から斜め上 方に打ち上げられ、横方向の初速度にしたがって、 8~16m 進んだ図中の黒い場所の範囲でランダムに落下 する。上方向の初速度は 29.4m/s で常に一定とし、玉は 打ち上げ後 6秒後に落下してその場にとどまり、15秒後 に元の位置に戻されて、新しくランダムな横方向の初速 度で発射される。移動ロボットの寸法はFig.2の通りで、 重さは 500g とした。トルクは-1~1Nm で、すべてのタ イヤに等しくかけられる四輪駆動として、角速度× 0.1Nmを摩擦等として減じた。また、ロボットは玉をす り抜けるようにし、衝突しないようにした。 シミュレーションの時間間隔は 0.01秒とし、移動ロボ ットにとっての 1 ステップは 0.5 秒とした。また、この シミュレーション環境は、オープンソースの物理エンジ ンである OpenDynamicsEngineを用いて作成した。 ロボットは自分から見た玉の相対的な横方向の位置 -19~14と高さ方向の位置 0~46を知ることができる 2つ のセンサを有しており、そこからの信号をニューラルネ ットへ入力する。ただし、非線形性の強い関数近似を可 能とするため、1 つの連続値信号を Fig.3 のように局所 化した 20個の信号で表現してから入力した。 車輪のトルクは、actorの出力である動作信号と試行錯 誤の成分である乱数を足した値を元に、ニューラルネッ トの 0.1~0.9 の出力が-1~1Nm になるように線形変換し て用いた。その乱数は、式(5)にしたがって、最初は 2で、 100万回後には 0.01になるように小さくしていった。 2 ) 1000000 ) 2 01 0 exp(ln( * *step / / . (5) また隠れニューロン数は、閾値として使う常に 1 を出 力するニューロンを含めて 20個とした。報酬 rは目標に 近づくほど大きくするため、玉の落下点を中心にガウス 関数にしたがって次式のように設定した。 )) 2 2 /( 2 ) target ( exp( max σ × − − = x r r (6) なお、σ 2 は分散であり、今回は 2とした。 4. シミュレーション 4.1 階層型ニューラルネットとの比較 リカレントネットを用いることで、文脈を用いて状態 を識別し、それに基づいた制御ができるはずである。こ れを検証するために、リカレントネットと隠れニューロ ン同士の結合をなくした階層型ニューラルネットでそれ ぞれ学習したものを比較した。 Fig.1 Environment in simulation Fig.2 A moving robot in the simulation Fig.3 Localization of a continous input signals リカレントネットでの学習後のロボットの軌跡と actor、criticの変化の値を Fig.4,5に、階層型ニューラル ネットでの学習後の場合を Fig.6,7に示す。図の xが 12m で玉が発射されており、玉の軌跡で、x の変化がなくな ったところが着地点である。 Fig.4を見ると、ロボットは玉が着地する際にその位置 まで進んでいることがわかる。また、リカレントネット を用いた場合のみ、玉を発射した直後は領域の中心位置 に移動しようとしていた。これは中心に近いところに行 った方が、落下地点の変化に対応しやすいためと考える ことができる。玉が打ち上がっているのか、下がってい るのかは、玉の高さの変化を捉えなければならないが、 階層型では瞬間の高さしか入力されないため、その区別 がつかない。そのため発射時に玉から離れるよう動く必 要があっても、単に玉の方向へ近づこうとする傾向にあ り、Fig.6の最後のように-4mから 4mへ移動する際のよ うに、着地に間に合わない場合もあった。Fig.6でのロボ ットの軌跡が曲っているのは、単に玉に近づいていく→ 玉が頂上にきたところで、行きすぎることに気付く→玉 に合わせて actor を出力する、という動作をしているた めだと考えられる。以上のことから、リカレントニュー ラルネットは文脈を考慮した行動を学習したと言える。 4.2 外力を付加した場合 次に、外力として、モータへのトルクに一定の大きさ のトルクを加えた。外力として+0.5 のトルクを加算し続 けて学習した場合と、外力なしで学習した場合のそれぞ れについて、テスト時に外力を加えた場合と外力を加え なかった場合の結果を Fig.8〜11 に示す。Fig.8、11 は、 学習環境とテスト環境は同じであるが、Fig.9、10 はテ スト環境は未学習である。ここでは、4m の位置にロボ ットを置いた状態から、-4m、-2m、0m、2m、4m のそ れぞれに玉が着地する場合のボットの軌跡を示している。 Fig.8 ではロボットが動いて玉の着地の際には既に着 地点に到着している。しかし、外力を加えた Fig.9 を見 てみると、外力の方向に引っ張られて、-4m の着地点に は到達できていないことがわかる。しかし Fig.11 を見る と、着地の瞬間には届かないながらも、玉の落下後に着 地点に向かっていることがわかり、学習すれば、外力を 加味した上での行動が獲得できていることがわかる。ま た、Fig.9 では Fig.8 の留まっている場所からわずかで はあるが、外力の方向にずれていることがわかる。なお、 玉の打ち出し初期に、既に玉の着地点にいた場合でも移 動してしまっているのは、リカレントネットを用いた場 合はいったん 0 の位置に戻ろうとするためである。 Fig.10 を見てみると、Fig.11 に比べて若干行きすぎ てから戻っているために、着地点に間に合っていたパタ ーンでも遅れてしまっていることがわかる。また、Fig.10 は、Fig.11 の留まる場所からわずかではあるが、外力が ない方向にずれていることがわかる。 以上から、環境のダイナミクスが学習していないもの に変化すると軌道がずれることから、外力をかけないで 学習したものは外力のない状態に対応して、外力をかけ て学習したものは外力のある状態に対応して、それぞれ 逆ダイナミクスを、つまりフィードフォワード制御を学 習していると言える。 次に、リカレントネットを用いたフィードバック制御 を検証するために、毎試行-0.5~0:5 のランダムな外力を トルクとして与えて学習した。そして学習後、玉が着地 した後に、途中で外力を切り変えた。結果を Fig.12 と Fig.13 に示す。両グラフを見ると、それぞれ、その場に 留まり続けるよう外力に対してトルクを切り替えている ことが推察できる。階層型ニューラルネットで学習させ た結果の Fig.13 では、リカレントネットと似たような 出力は出るものの、リカレントネットの方が玉の位置に 近くにいることから、フィードバックをうまく用いてい るのではないかと考えられる。 5. おわりに センサとモータの間をリカレントニューラルネットで構 成し、単に強化学習で学習することで、文脈を考慮した 行動生成、一定の外力を与えた場合のフィードフォワー ド制御、さらには、ランダムな外力に対してはフィード バック制御の機能を、設計者の負荷なく柔軟に組み合わ せた制御を行うことができることを示した。ただし、ラ ンダムな外力を与えた場合には小さな定常誤差が残って おり、本システムでは適切な積分制御を実現できなかっ たと考えられ、今後の課題である。
[1]
Mitsuo Kawato,et al.
Feedback-Error-Learning Neural Network for Supervised Motor Learning
,
1990
.
[2]
Minoru Asada,et al.
Purposive Behavior Acquisition for a Real Robot by Vision-Based Reinforcement Learning
,
2005,
Machine Learning.
[3]
Jun Morimoto,et al.
Learning CPG-based biped locomotion with a policy gradient method
,
2005,
5th IEEE-RAS International Conference on Humanoid Robots, 2005..
[4]
Richard S. Sutton,et al.
Neuronlike adaptive elements that can solve difficult learning control problems
,
1983,
IEEE Transactions on Systems, Man, and Cybernetics.
[5]
Jun Morimoto,et al.
Acquisition of stand-up behavior by a real robot using hierarchical reinforcement learning
,
2000,
Robotics Auton. Syst..
[6]
Katsunari Shibata,et al.
Acquisition of Flexible Image Recognition by Coupling of Reinforcement Learning and a Neural Network
,
2009
.
[7]
P. Hayes,et al.
Cognitive Wheels : The Frame Problem of AI
,
2022
.
[8]
Junichiro Yoshimoto,et al.
Acrobot control by learning the switching of multiple controllers
,
2005,
Artificial Life and Robotics.
[9]
R. A. Brooks,et al.
Intelligence without Representation
,
1991,
Artif. Intell..