方策エントロピー - 🍣YuWd(和田唯我)のメモ🍣

方策エントロピー

探索空間において探索されたことで更新される情報量

情報エントロピー, もしくは方策の対数尤度の期待値と考えればOK

$ \displaystyle{H(\pi( \cdot | s_t)) = \sum_{a} {-\pi(a | s)\log\pi(a | s)} = E_{a\sim\pi} \left[ {-\log\pi(a | s)} \right \rbrack}

https://gyazo.com/2791ca74fc016190e12e1d49acb13c02