強化学習 - kyoyo-ds2019-004

強化学習

個々の動作についての適否は与えられていないものの、一連の動作の後の結果は教師データとして与えられるような場合に用いられる学習手法

ロボットの行動知識やゲームの戦略知識の獲得などに用いられる

メリット

二足歩行ロボットの行動知識の獲得について考える。このような知識は原則的には、教師あり学習を用いて獲得することができる。例えば、ロボットの姿勢や重心位置、あるいは関節角度などによってある状態が決められたら、その状態に対応するためのモータへの制御信号を教師データとして与える。この行為を無数の状態に対して繰り返せば、歩行知識を獲得することはできる。しかしこのような教師データをつくることは、人間にとっても簡単ではなく、大変な労力が必要となる。そのような場合に強化学習が使われる。

報酬

一連の動作全体に対する評価値のこと

教師データを用意する代わりに、一連の動作が終了した後に、どの程度うまく行うことができたのかという評価値を与える。

参考文献

基礎から学ぶ人工知能の教科書

著者 : 小高知宏

発行所 : オーム社

ページ : 57,58

#テーマ5