強化学習
強化学習は、与えられた条件下で得られる価値を最大化する方法を、試行錯誤を通じて探索し続ける学習です。ある行動を起こした結果を踏まえ、また行動を試行する、という流れで学習がループし続けます。
引用
強化学習の流れ[1]
https://gyazo.com/d5edb211355bccdf91dc73ce9315b2b9
エージェント:学習者
環境:エージェントが働きかける仮想空間
行動:エージェントによる環境に働きかけ
報酬:行動を点数化した即時的なフィードバック
状態:エージェントが行動するたびに更新される環境の状態(情報)
エージェントは環境に対してランダムに行動を起こし、状態と報酬によってフィードバックを受ける。その行動をした場合としなかった場合の価値を比較し、価値の高いほうを方策に組み込む。これを繰り返して方策を修正し、最も得られる価値の高い方策を目指す。
報酬がランダムな行動に対する即時的なフィードバックであるのに対し、価値とは、長期的な行動パターンの調整によって最大化が目指されるものである。
深層強化学習
強化学習に重要な「特徴量抽出」と「時系列データ生成」の過程に、それぞれ「畳み込みニューラルネットワーク」と「再帰型ニューラルネットワーク」というディープラーニングのアルゴリズムを活用すること。
【画像の出典】
【参考資料】