AVG
https://arxiv.org/abs/2411.15370
おぉー、またUniversity of Albertaの新作だ
方策勾配法を2つに分類
LG(likelihood gradient) : ∇θEpθ
φ(X)
=EX∼pθ
φ(X)∇θlogpθ(X)
RG(reparameterization gradient) : ∇θEpθ
φ(X)
=Eξ∼g
∇θφ(fθ(ξ))
.
#RL