サプライズ(surprise)
内的報酬(intrinsic rewards)の観点:
ある状態である行動をとった時($ s_{t-1},a_{t-1})、その状態($ s_{t})を観測するのがどれくらい予測を裏切るものであるか
確率的な行動を持つ状態を探索するようになる