強化学習
強化学習とは、機械学習のアルゴリズムの一つです。
教師あり学習、教師なし学習のような固定的で明確なデータを元にした学習ではなく、プログラム自体が与えられた環境(=現在の状態)を観測し、連続した一連の行動の結果、価値が最大化する(=報酬が最も多く得られる)行動を自ら学習し、選択していくだけでなく、行動についての評価も自ら更新していきます。
報酬は、例えばブロック崩しのゲームにおいて、ブロックをより多く倒せる位置にボールを飛ばせたら+5、ボールを落としたら-5、のように設定します。
https://www.youtube.com/watch?v=jwUmXfUG9V8]