強化学習 - kyoyo-ds2019-017

強化学習

環境における価値を最大化するようにエージェントを学習させる｛１｝

RPGに例える

いまの街で購入できる武器はこれが最も強い！（A)

十分、今の装備でここのボスは勝てる

次の街の武器はAの武器より強くコスパもよい

とこのように将来的なことを見据えて学習を行うということ

将来的な価値を最大化させたい！

＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿

参考文献

{1}Qiita 一から始める機械学習（機械学習概要） 2019/12/11 15:41 https://qiita.com/taki_tflare/items/42a40119d3d8e622edd2

＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿