確率的生成モデルによる符号化は強化学習を内包する
集合的予測符号化は確率的生成モデルとしてマルチエージェント強化学習における集団の環境適応を理論的に含むことができる
マルチエージェント強化学習における一連の研究
集団が得る報酬を最大化し適応価を上げる
モデルベース強化学習の主要な部分
確率的生成モデルとして予測モデル(もしくは世界モデル)を学習した後に行う 「将来の行動系列のベイズ推論」と等価であること が知られている (Levine, 2018).
これは「確率推論 による制御(control as inference)」と呼ばれる.
↓
集合的予測符号化はこれを集団のエージェントに拡張する
マルチエージェント強化学習の意味での集団の環境適応を理論的に内包することが できる.