行動価値関数
行動
の
価値
を評価する
価値関数
のひとつ.
Q値
ともいう.
Q学習
や
SARSA
によって
最適化
される.