強化学習
Reinforcement learning
行動心理学
からの名付け?
エージェント
は反復的な改善をする
報酬システム
とインセンティブ
報酬システムは即時的(その都度与えられる)で累積的(最終アウトプットまで), インセンティブは長期(最終アウトプットに近い)
報酬システムは学習的(フィードバックによって変化・改善)、インセンティブは固定
方策関数
状態から行動への
写像
環境が状態と報酬を与える
PRM
OpenAI o1はどう作るのか(詳細編)|はち
Actor Critic方