強化学習
強化学習とは
教師あり学習、教師なし学習のような固定的で明確なデータを元にした学習ではなく、プログラム自体が与えられた環境(=現在の状態)を観測し、連続した一連の行動の結果、価値が最大化する(=報酬が最も多く得られる)行動を自ら学習し、選択していくだけでなく、行動についての評価も自ら更新していく
試行錯誤を通じて価値を最大化する
入力は乱数、正解データは与えられない(環境と報酬が与えられる)
子供が成長するようなもの
強化学習のメリット
データが必要無い
データは強化学習環境上で動くエージェント自身が探索して作成する
データ至上主義のDeep learning界では異色の存在
データではGoogleに勝てないので、強化学習がんばろう!というような話しはよく聞く
ともかく、データが無くても遊べるので楽しい
これらのメリットから、教師あり学習・なし学習で難しい課題に対して、強化学習が適用される
活用事例
ブロック崩し
すもう
ロボットがドアノブを開ける
囲碁(Alpha Go)
これは、ゲームのルールを一切与えず(アルゴリズムで考慮に入れず)、ゲーム画面とスコアだけで、人間を超えるスコアをたたき出したという成果です。これ以降、Deep learningを使った強化学習の進化が加速しました。
参考文献
Qiita 趣味の強化学習入門
https://qiita.com/ikeyasu/items/67dcddce088849078b85
Udemy 強化学習とは?ALPHAGOでも使われている強化学習を具体例とともに丁寧に解説! https://udemy.benesse.co.jp/ai/reinforcement-learning.html
#テーマ5