AlphaGo
https://youtu.be/WXuK6gekU1Y
2015年10月 人間のプロ囲碁棋士を互先(ハンディキャップなし)で破った初のコンピュータ囲碁プログラムとなった
ヒカルの碁(1999年)では100年かかると表現していた https://pbs.twimg.com/media/DK-IhvbUIAESoem?format=jpg&name=large#.jpg https://twitter.com/motoso/status/914099377144184832
2016年3月 2000年代半ばから2010年代前半における世界最強の棋士イ・セドルに4勝1負勝利した 2017年 柯潔との三番勝負で3局全勝を挙げ、中国囲棋協会にプロの名誉九段を授与された
炎上しとる
アルファ碁は,これらの3種の技術を統合して,囲碁AIを作り上げている.
直感力に相当するディープラーニング技術
畳み込みニューラルネットワークCNN
次の1手を確率で表すポリシーネットワーク
局面の良さを評価するバリューネットワーク
いずれも10数層の階層からなるNN
次の1手を行うポリシーネットワークを強化する学習で,少しずつパラメータを方策勾配法により更新する強化学習である.自己対戦を繰り返し強化学習する. 候補となる木を深く探索する場合,勝率の高い枝を選ぶが,試行回数が少ないときは幅を広げて低い枝も加えるという手法を用いて,子ノードを選択して終局まで進める方法である.
使用した棋譜データ
高段者の棋譜16万局分
局面に直すと,一局の手数は200手程度なので,3,000万個の学習データである.
これに棋譜の対称性(回転や反転)を考慮して,この8倍の2億4千万個の学習データを得ている.
学習
NNの出力と人間の手が,できるだけ一致するように,各層のフィルタの重みを,誤差逆伝播法を用いて修正している.