サプライズ(surprise)
内的報酬(intrinsic rewards)
の観点:
ある状態である行動をとった時(
$ s_{t-1},a_{t-1}
)、その状態(
$ s_{t}
)を観測するのがどれくらい予測を裏切るものであるか
確率的な行動を持つ状態を探索するようになる