Model-based
モデルベース
状態遷移モデル
を学習し,
ダイナミクス
の
予測
・
状態予測
を行う
パラメータ
数,
自由度
を抑えられる
簡単なタスクなら数十回の試行で学習
サンプル効率
向上