Q学習
強化学習
で用いられる手法.
ある特定の
状態
に対して1つの
行動価値
(
Q値
)を割り当てて,
学習
を行う.
実際にはわずかな
状態
の違いを別の
状態
としてしまうため,膨大な
状態
数になってしまう.