方策オン
強化学習において状態遷移をサンプリングする際,行動を生成するのに更新対象の方策自身を用いる方法.