オンライン学習
データ
を1つだけ取り出して
パラメータ
を更新する手法
強化学習
における
オフライン学習
とは対称性がないことに注意