AlphaStar
不完全情報RTSゲームであるStarCraft IIで世界のTopプレイヤーに圧勝.
先進的なモデル/学習上の工夫が大量に搭載 #TODO : 具体的に調べる
model-free RL
不完全情報ゲームの場合model-basedよりmodel-freeのほうが良い
相手の行動により最適解が変化
AlphaGo, AlphaZeroはsearch-based(~model-based)
相手の状態を陽に推定する
完全情報ゲームには相手の行動によらない解法が存在する?(質問スレより)
minimax法
Self-Imitation:人の操作の教師あり学習からself-play
模倣学習によるブースト
self-playだけでもそこそこだが,模倣学習(教師あり)によるブーストは大きい(質問スレより)
サンプル効率改善
AlphaZeroでも採用
Population-basedによる多様な環境での訓練
仮想リーグで異なる目標を持つエージェント同士で多様性を持ちながら競いあって学習
マクロ/ミクロ操作両面で勝っている
AlphaStar開発チームだけど何か質問ある?
https://www.reddit.com/r/MachineLearning/comments/ajgzoc/we_are_oriol_vinyals_and_david_silver_from/eexz72y/