強化学習
Data Artist より
最短経路検索、ゲーム攻略、ユーザー広告に使われる
報酬と罰で学習効率を上げる
報酬をもらう→続ける、罰を受ける→やめる
https://analytics-news.jp/info/Machine_Learning/2 より
ブロック崩しゲームの場合、「環境=ブロック崩しゲームの環境(ルール)」「報酬=最終得点」「エージェント=プレイヤー」となる。
上から落ちてきたボールが下に落ちてしまい、何回か繰り返すとゲームオーバーとなり得点が決定される。
最初の段階では、エージェントはバーを意味もなく動かし、0点でゲームオーバーとなる。しかし、試行錯誤を続ける中で、落ちてくるボールにバーを当てて弾き返せば、ゲームオーバーにはならず、得点を増やせることを導き出し、ボールが下に落ちないようにバーを動かすようになる。
さらに、ブロックの間の細い隙間にボールが入ることでボーナスが付き、大量に得点を取得できることが分かると、バーにボールを当てるポイントを調整して弾き返すようになる。
このような試行錯誤を何万回も繰り返すことで、人間を上回る高得点を獲得できるようになる。
何万回も繰り返してるので、時間がかかる
強化学習アルゴリズム
Q-Learning
最適な行動の価値を「Q値(状態行動価値)」として、試行錯誤および結果から、このQ値が最大になるような行動を選択していく学習手法
Sarsa
実際に行動してみた結果を使用して期待値の見積を置き換える手法。
モンテカルロ法
何らかの報酬が得られるまで行動をしてみて、その報酬値を把握してから、そこに至るまでの状態と行動に対して報酬値を分配していく手法。
#テーマ5