方策オン
強化学習
において
状態遷移
を
サンプリング
する際,
行動
を生成するのに更新対象の
方策
自身を用いる方法.