方策エントロピー
#強化学習
探索空間において探索されたことで更新される情報量
情報エントロピー
, もしくは方策の対数尤度の期待値と考えればOK
$ \displaystyle{H(\pi( \cdot | s_t)) = \sum_{a} {-\pi(a | s)\log\pi(a | s)} = E_{a\sim\pi} \left[ {-\log\pi(a | s)} \right \rbrack}
https://gyazo.com/2791ca74fc016190e12e1d49acb13c02
引用:
https://horomary.hatenablog.com/entry/2020/12/20/115439