AlphaGo
DeepMind
が開発した
ゲームAI
2016年
に
プロ棋士
に大きく勝ち越したことでインパクトを与えた
モンテカルロ木探索
に
深層強化学習
を組み合わせている.
盤面
から
勝率
を計算するために
バリューネットワーク
や
ポリシーネットワーク
が用いられている.
発展系として
AlphaGo Zero
や
Alpha Zero
がある