行動価値関数
行動の価値を評価する価値関数のひとつ.
Q値ともいう.
Q学習やSARSAによって最適化される.