強化学習 - AGI

強化学習

ステップごとに状態空間内を移動

移動パスが行動

各状態(および前後の行動)に報酬が割り当てられている

過去・未来の時間的な依存度が増すにつれて，状態空間は指数的に大きくなる？

毎ステップ行動するのは忙しすぎないか？

階層型強化学習

Pythonで学ぶ強化学習

https://twitter.com/jinbeizame007/status/1092091172019830784?s=19

https://gyazo.com/999d757198a4f6cb648139138799ca6b

https://twitter.com/yumaloop/status/1115564899793432577?s=19