強化学習
ステップごとに状態空間内を移動
移動パスが行動
各状態(および前後の行動)に報酬が割り当てられている
過去・未来の時間的な依存度が増すにつれて,状態空間は指数的に大きくなる?
毎ステップ行動するのは忙しすぎないか?
CPG,反射
疲労
階層型強化学習
Pythonで学ぶ強化学習
https://twitter.com/jinbeizame007/status/1092091172019830784?s=19
https://gyazo.com/999d757198a4f6cb648139138799ca6b
https://twitter.com/yumaloop/status/1115564899793432577?s=19