方策オフ
強化学習において状態遷移をサンプリングする際,行動を生成するのに更新対象の方策を必ずしも用いない方法.