AlphaGo
Silver, D., Huang, A., Maddison, C. et al. Mastering the game of Go with deep neural networks and tree search. Nature 529, 484–489 (2016). https://doi.org/10.1038/nature16961
https://youtu.be/WXuK6gekU1Y
DeepMindが開発した囲碁のAI
2015年10月 人間のプロ囲碁棋士を互先(ハンディキャップなし)で破った初のコンピュータ囲碁プログラムとなった
https://ja.wikipedia.org/wiki/AlphaGo
ヒカルの碁(1999年)では100年かかると表現していた
https://pbs.twimg.com/media/DK-IhvbUIAESoem?format=jpg&name=large#.jpg https://twitter.com/motoso/status/914099377144184832
2016年3月 2000年代半ばから2010年代前半における世界最強の棋士イ・セドルに4勝1負勝利した
李世ドル - Wikipedia
2017年 柯潔との三番勝負で3局全勝を挙げ、中国囲棋協会にプロの名誉九段を授与された
柯潔 - Wikipedia
柯洁惊叹中国男棋手输韩国女孩:中了美人计|围棋_网易体育
炎上しとる
囲碁雑記:技倆(ぎりょう)と哲学とAI|情報処理学会・学会誌「情報処理」|note
アルファ碁は,これらの3種の技術を統合して,囲碁AIを作り上げている.
直感力に相当するディープラーニング技術
畳み込みニューラルネットワークCNN
CNNは2種類
次の1手を確率で表すポリシーネットワーク
局面の良さを評価するバリューネットワーク
いずれも10数層の階層からなるNN
強化学習
次の1手を行うポリシーネットワークを強化する学習で,少しずつパラメータを方策勾配法により更新する強化学習である.自己対戦を繰り返し強化学習する.
3つ目のモンテカルロ木探索技術は,打つ手を先読みする技術である.
候補となる木を深く探索する場合,勝率の高い枝を選ぶが,試行回数が少ないときは幅を広げて低い枝も加えるという手法を用いて,子ノードを選択して終局まで進める方法である.
使用した棋譜データ
高段者の棋譜16万局分
局面に直すと,一局の手数は200手程度なので,3,000万個の学習データである.
これに棋譜の対称性(回転や反転)を考慮して,この8倍の2億4千万個の学習データを得ている.
学習
NNの出力と人間の手が,できるだけ一致するように,各層のフィルタの重みを,誤差逆伝播法を用いて修正している.