強化学習
問題と回答に対する報酬を与える
強化学習の仕組み
強化学習とは、赤ちゃんのように、正解を与えなくても試行錯誤を繰り返しながら最適な行動をするように学習する方法のことです。
強化学習には正解がなく代わりにその行動がどれだけ良かったのかを報酬として与えその報酬が高くなるような行動するように仕向ける。
教師なし学習も正解はないが
最適な行動学習するのが強化学習。
強化学習用語集
オセロで例える
状態state
石の配置や石のおけるマスの場所など
行動action
石をどのマスに置くのか
エージェントAgent
オセロのプレイヤーなどの行動主体
報酬Reward
行動起こした結果得られる価値。
方策Policy
どの状態の時にどの行動をとるかと言う、状態と行動の組み合わせのこと
収益Return
将来まで考えたときにどれだけの報酬を得られるか
Q値Q-Value
ある状態において、その行動がどれだけ良いのかと言う行動の価値を表す。
V値V-Value
その状態がどれだけ良いのかと言う状態の価値を表す。
エピソードEpisode
行動し始めてから行動できなくなるまでの1連のまとまり