Self-Imitation

Self-Imitation Learning (SIL)

過去の良かった行動を模倣する(再現する)．

サンプリングは方策オフで行う．

$ \mathcal{L}^{sil} = \mathbb{E}_{s,a,R \in D} \left[\mathcal{L}^{sil}_{policy}+\beta^{sil}\mathcal{L}^{sil}_{value}\right]

$ \mathcal{L}^{sil}_{policy} = -\log\pi_\theta(a|s)(R - V_\theta(s))_+

$ \mathcal{L}^{sil}_{value} = \frac{1}{2} \|(R - V_\theta(s))_+\|^2

$ (\cdot)_+ = \max(\cdot,0)

$ \mathcal{L}^{sil}_{policy}：$ V_\thetaをbaselineとしたpolicy gradient

$ R-V_\thetaで重み付けされたcloss entropyでもある

$ \mathcal{L}^{sil}_{value}：$ V_\thetaの報酬予測誤差

$ R - V_\theta(s) > 0のときのみ$ \mathcal{L}^{sil}>0

$ (R - V_\theta(s))_+を優先度とする優先度付きreplay buffer

探索が足りないと局所解に陥るので，通常の学習とのバランスが重要

その他

方策オフなのにimportance sampling不要．(論文に理由書いてあるらしい)

離散でも連続でも使える

他の方策オンの学習などと組み合わせる．

A2C+SILはPGQLの一種とみなせる．

PPOとも．

$ \mathcal{L}^{sil}は，entropy正則化つきの下界ソフトQ学習とみなせる(qiita) #wip

探索が困難なAtariゲームで良い成績を出している

【論文】Self-Imitation Learning (SIL, 2018)

Self-Imitation Learning

Junhyuk Oh, Yijie Guo, Satinder Singh, Honglak Lee