データを生成する「真の」プロセスと、有限でノイズの乗ったデータ
#過学習と汎化能力
データを生成する「真の」プロセスと、有限でノイズの乗ったデータ
機械学習を理解するためには、次のような世界観をイメージしよう
得られるデータの背後には、データを生成する「真の(しかし、知り得ない)」プロセスがある
実際に得られるデータには、そこになんらかの確率分布にもとづくノイズ(誤差、雑音)が乗っている
この「真の」プロセスの姿を、ノイズが乗った、かつ有限個のデータから、いかに学習するか?
「真の」プロセスからのデータ生成のイメージ
以下の図や説明は回帰問題のものだが、本質的には分類問題でも同様である
学習に用いることができるのは、「真の」プロセスにノイズが乗った有限個のデータのみ
イメージとしては、下の図のような感じ
$ y = f(x)という関数に対して、$ y方向に正規分布のノイズが乗っているイメージ($ p(y|x) \sim N(f(x), \sigma^2))
https://gyazo.com/8e99834bacf7bb60ee3a8cc304d04951
https://gyazo.com/16484607b318ff2a85de1177528dea13
我々が知りたいのは、「真の」プロセス「$ y = f(x)」である
しかし、得られるデータにはノイズが乗っていて、しかも有限個
…という状況で、学習を行っていることになる