強化学習
ステップごとに
状態空間
内を移動
移動パスが
行動
各状態(および前後の行動)に報酬が割り当てられている
過去・未来の時間的な依存度が増すにつれて,状態空間は指数的に大きくなる?
毎ステップ
行動
するのは
忙し
すぎないか?
CPG
,
反射
疲労
階層型強化学習
Pythonで学ぶ強化学習
https://twitter.com/jinbeizame007/status/1092091172019830784?s=19
https://gyazo.com/999d757198a4f6cb648139138799ca6b
https://twitter.com/yumaloop/status/1115564899793432577?s=19