AlphaStar
不完全情報
RTS
ゲームである
StarCraft
IIで世界のTopプレイヤーに圧勝.
先進的なモデル/学習上の工夫が大量に搭載
#TODO
: 具体的に調べる
model-free
RL
不完全情報ゲームの場合
model-based
よりmodel-freeのほうが良い
相手の行動により最適解が変化
AlphaGo, AlphaZeroは
search-based
(~model-based)
相手の状態を陽に推定する
完全情報
ゲームには相手の行動によらない解法が存在する?(質問スレより)
minimax
法
Self-Imitation
:人の操作の
教師あり
学習から
self-play
模倣
学習によるブースト
self-playだけでもそこそこだが,
模倣学習
(教師あり)によるブーストは大きい(質問スレより)
サンプル効率
改善
AlphaZero
でも採用
Population-based
による多様な環境での訓練
仮想リーグで異なる
目標
を持つ
エージェント
同士で
多様性
を持ちながら競いあって学習
マクロ
/
ミクロ
操作両面で勝っている
AlphaStar開発チームだけど何か質問ある?
https://www.reddit.com/r/MachineLearning/comments/ajgzoc/we_are_oriol_vinyals_and_david_silver_from/eexz72y/