1e40cd43d981,012
http://nhiro.org.s3.amazonaws.com/4/4/44c28ac9be427e9b9b3dcb9f50395050.jpg https://gyazo.com/44c28ac9be427e9b9b3dcb9f50395050
(OCR text)
13
REINFORCEアルゴリズム
1行解説:行動価値観数を報酬で近似し、固定長の
試行を繰り返すことで勾配を推定し、方策を更新
する方策勾配法の1つ。
説明に必要な用語の説明すら残り5分では無理!
詳しく知りたい人は「強化学習その3」で
bozumanを検索すると機械学習勉強会での
発表資料が見つかるよ!