逆強化学習
劇的に貴重な逆強化学習のサーベイ論文。基本的な仕組みから活用用途までが書かれている。逆強化学習の代表的な手法(Max Margin/Max Entropy/Bayesian)をきちんと整理して書いている
arxiv.org/abs/1806.06877
GANと逆強化学習とエネルギーベースモデルは、生成モデルGが尤度を与えられるなら、同じものとみなせ、他のコミュニティの技術を使える。例えば現在のGANのGに尤度を与えられる自己回帰モデルなどを使えば学習を安定化できる arxiv.org/abs/1611.03852