強化学習
https://gyazo.com/45f172ae7e8f84e0be3d9fd235c6402a
https://gyazo.com/45f172ae7e8f84e0be3d9fd235c6402a
強化学習とは
教師なし学習と同様に「正解」データは与えられず、データの出力を価値づけし、その価値を最大化するための行動をとるようにアルゴリズムを最適化
逆強化学習とは、報酬を基に最適行動を導き出す強化学習にとは“逆”に、最適行動から報酬を推定する学習。
新技術では、データ同士の関連性から規則性を自動で発見した上で、分析対象のデータに応じて参照する規則を切り替える「異種混合学習」を拡張。熟練者の行動履歴データから、複数の意思決定モデルと、それらの切り替えルールを学習する。さらに、熟練者が選ばない行動は「リスクがある」として避け、常に行っている行動は「守るべき制約」とみなして学習することで、安全で信頼性の高い判断と同等の意思決定が可能になるという。
熟練者と非熟練者それぞれの行動履歴データからサンプリングすることで、意思決定モデルを評価できる「モデルフリー方式」を採用。従来の逆強化学習に必要だった、コストのかかる「状態遷移モデル」が不要で、学習環境の大幅な簡略化を可能にした。学習途中の意思決定モデル評価をシミュレータなどで実行する必要もなく、既存逆強化学習の100倍の効率で学習できるという。
新技術は、営業活動やプラント運転など、RPAが適用できない複雑な意思決定が必要な領域や、自動運転・ロボット制御など、人の判断・動作を物理的に再現する領域への活用を想定。経験の浅い営業担当者に、活動指針を出す――といったことが可能になるという。
参考文献:【保存版】機械学習とは | 意味や仕組み・勉強方法を徹底解説 Ledge.ai https://ledge.ai/machine-learning/ 2020/12/22
#テーマ4
#機械学習