サプライズ(surprise)

ある状態である行動をとった時($ s_{t-1},a_{t-1})、その状態($ s_{t})を観測するのがどれくらい予測を裏切るものであるか

確率的な行動を持つ状態を探索するようになる