強化学習
public.icon
報酬を最大化するための行動ルールを学習させる
エージェントが探索的に行動し、環境との相互作用の中から学習が進む
強化学習には「報酬関数」というものがあって、報酬を得るためになにをすべきか、なにをすると褒められるのかということをAIが試行錯誤しながら学習します。ある状態のときにどういう行動をとるのが一番いいのかを最適化していく。直接的というよりは、少し間接的な形で学習が進んでいくので、そこが扱いづらいと言われるゆえんかなと思います。(略)ということは事前に決められた「ある状態のときにはこう動かす」という教師データを並べても、必ずしもうまくいかないわけです。それより全体として掘るという目的を達成できていたらいいよねという。一瞬一瞬に合わせにいくわけではなく、全体の動きとして掘るということができていたらいい、そういうときに使えるのが強化学習です。DeepXでは、そうした「自明ではないけれども人間がなんとなくやっていて、動かし方を記述するのが難しい」ということを、強化学習を使って実現させようとしています。