強化学習 - kyoyo-ds2019-001

強化学習

http://www.sist.ac.jp/~kanakubo/research/reinforcement_learning/outline.png｛１｝

囲碁ソフトAlphaGoが囲碁世界チャンピオンに完勝したあれ

機械学習手法のひとつで、試行錯誤を通じて「価値を最大化するような行動」を学習するもの。

上記の例、囲碁ソフトAlphaGoを倒したAlphaGo Zeroはルールだけを知った状態で自己対戦だけで3時間でAlphaGOを倒したらしい

なんとなく強化学習が分かる面白い動画

https://www.youtube.com/watch?v=M3-vIh4h-7I&t=380s

https://www.youtube.com/watch?v=8uvfF0eYHKY

強化学習の説明が分かりやすいサイトを発見した