強化学習 - 角谷鵜技術五十三次

強化学習

強化学習とは、試行錯誤を通じて「価値を最大化するような行動」を学習するものです。

教師付き学習とよく似た問題設定ですが、与えられた正解の出力をそのまま学習すれば良いわけではなく、もっと広い意味での「価値」を最大化する行動を学習しなければなりません。

例えば、株の売買により利益を得る問題が強化学習にあたります。

この場合、持っている株をすべて売り出せば確かにその時点では最もキャッシュを得ることができますが、より長期的な意味での価値を最大化するには、株をもう少し手元に置いておいたほうが良いかもしれません。

2017年06月06日ゼロからDeepまで学ぶ強化学習 - Qiita

強化学習は教師あり学習に似ていますが、(教師による)明確な「答え」は提示されません。では何が提示されるかというと、「行動の選択肢」と「報酬」になります。

これだと答え=報酬と考えれば同じじゃないか(行動A=10pt、のような)、と感じると思いますが、一つ大きな違いがあります。それは強化学習においての報酬は「各行動」に対してではなく、「連続した行動の結果」に対して与えられるという点です。

サッカーでたとえると、ゴールをしたら1点、というのは強化学習における報酬になります。ただ、ゴールに至るためにパスをする、ドリブルをする、という各行動についてはいちいち報酬が与えられません。逆に、コートの外から「今のパスはいいぞ！」「そこでドリブルしたらダメだろ！」と逐一指示が飛んでくるのが教師あり学習になります。強化学習では「連続した行動の結果」としてのゴールの1点しか報酬が与えられないため、それに至るためのパスやドリブルがどれぐらいいいのかは、ゴールできたケースとできなかったケースから、自分自身で「評価」を行っていく必要があります。