強化学習
環境における価値を最大化するようにエージェントを学習させる{1}
RPGに例える
いまの街で購入できる武器はこれが最も強い!(A)
十分、今の装備でここのボスは勝てる
次の街の武器はAの武器より強くコスパもよい
とこのように将来的なことを見据えて学習を行うということ
将来的な価値を最大化させたい!
_______________
参考文献
{1}Qiita 一から始める機械学習(機械学習概要) 2019/12/11 15:41
https://qiita.com/taki_tflare/items/42a40119d3d8e622edd2
_______________
#テーマ5