Q学習
強化学習で用いられる手法.
ある特定の状態に対して1つの行動価値(Q値)を割り当てて,学習を行う.
実際にはわずかな状態の違いを別の状態としてしまうため,膨大な状態数になってしまう.