深層強化学習
AIにランダムな行動を繰り返し成功を重ねることでパターンを覚えていくもの.
ディープラーニングと強化学習を組み合わせた手法である
与えるゲーム情報と報酬さえ決めれば詳細にルールを決定せずに報酬を最大化する行動を取るようになる.
AlphaGoでも採用されている手法