方策オフ - AGI

方策オフ

強化学習において状態遷移をサンプリングする際，行動を生成するのに更新対象の方策を必ずしも用いない方法．