Self-Imitation
Self-Imitation Learning (SIL)
過去の良かった行動を模倣する(再現する).
価値関数の推定値よりも高い報酬が得られた経験をサンプルして学習.
サンプリングは方策オフで行う.
$ \mathcal{L}^{sil} = \mathbb{E}_{s,a,R \in D} \left[\mathcal{L}^{sil}_{policy}+\beta^{sil}\mathcal{L}^{sil}_{value}\right]
$ \mathcal{L}^{sil}_{policy} = -\log\pi_\theta(a|s)(R - V_\theta(s))_+
$ \mathcal{L}^{sil}_{value} = \frac{1}{2} \|(R - V_\theta(s))_+\|^2
$ (\cdot)_+ = \max(\cdot,0)
$ \mathcal{L}^{sil}_{policy}:$ V_\thetaをbaselineとしたpolicy gradient
$ R-V_\thetaで重み付けされたcloss entropyでもある
$ \mathcal{L}^{sil}_{value}:$ V_\thetaの報酬予測誤差
$ R - V_\theta(s) > 0のときのみ$ \mathcal{L}^{sil}>0
$ (R - V_\theta(s))_+を優先度とする優先度付きreplay buffer
探索が足りないと局所解に陥るので,通常の学習とのバランスが重要
その他
方策オフなのにimportance sampling不要.(論文に理由書いてあるらしい)
離散でも連続でも使える
他の方策オンの学習などと組み合わせる.
A2C+SILはPGQLの一種とみなせる.
PPOとも.
$ \mathcal{L}^{sil}は,entropy正則化つきの下界ソフトQ学習とみなせる(qiita) #wip
探索が困難なAtariゲームで良い成績を出している
【論文】Self-Imitation Learning (SIL, 2018)
https://qiita.com/keisuke-nakata/items/dc09709f77245e958a0c
Self-Imitation Learning
Junhyuk Oh, Yijie Guo, Satinder Singh, Honglak Lee
https://arxiv.org/abs/1806.05635