empowerment
state$ sにおけるempowerment
$ \mathcal{E}(s) = \max_{a, s^{\prime}} \mathcal{I}\left(s^{\prime} ; a | s\right) = \max_{s^{\prime}} \left[ \mathcal{H}\left(s^{\prime} | s\right) - \mathbb{E}_{p(a | s)} \left[ \mathcal{H}\left(s^{\prime} | a, s\right) \right] \right]
第一項
高いほどempowerment高い
第二項
エージェントが行動したときの将来の状態の多様性
全ての行動に対して平均している
低いほどempowerment高い