深層強化学習
AI
にランダムな行動を繰り返し成功を重ねることでパターンを覚えていくもの.
ディープラーニング
と
強化学習
を組み合わせた手法である
与える
ゲーム
情報と
報酬
さえ決めれば詳細にルールを決定せずに
報酬
を最大化する行動を取るようになる.
AlphaGo
でも採用されている手法