方策オン - AGI

方策オン

強化学習において状態遷移をサンプリングする際，行動を生成するのに更新対象の方策自身を用いる方法．