強化学習 - 未来の自分を助けるメモ

強化学習

Reinforcement learning

行動心理学からの名付け？

エージェントは反復的な改善をする

報酬システムとインセンティブ

報酬システムは即時的（その都度与えられる)で累積的(最終アウトプットまで), インセンティブは長期（最終アウトプットに近い)

報酬システムは学習的(フィードバックによって変化・改善)、インセンティブは固定

状態から行動への写像

環境が状態と報酬を与える

OpenAI o1はどう作るのか（詳細編）｜はち

Actor Critic方