方策オフ
強化学習
において
状態遷移
を
サンプリング
する際,
行動
を生成するのに更新対象の
方策
を必ずしも用いない方法.