強化学習
強化学習
個々の動作についての適否は与えられていないものの、一連の動作の後の結果は教師データとして与えられるような場合に用いられる学習手法
ロボットの行動知識やゲームの戦略知識の獲得などに用いられる
メリット
二足歩行ロボットの行動知識の獲得について考える。このような知識は原則的には、教師あり学習を用いて獲得することができる。例えば、ロボットの姿勢や重心位置、あるいは関節角度などによってある状態が決められたら、その状態に対応するためのモータへの制御信号を教師データとして与える。この行為を無数の状態に対して繰り返せば、歩行知識を獲得することはできる。しかしこのような教師データをつくることは、人間にとっても簡単ではなく、大変な労力が必要となる。そのような場合に強化学習が使われる。
報酬
一連の動作全体に対する評価値のこと
教師データを用意する代わりに、一連の動作が終了した後に、どの程度うまく行うことができたのかという評価値を与える。
参考文献
基礎から学ぶ人工知能の教科書
著者 : 小高知宏
発行所 : オーム社
ページ : 57,58
#テーマ5