回帰の語源
機械学習においての回帰は、たまたま平均への回帰という事象から、統計の分野で利用されるようになったが 意味合いが全然合致してないのでややこしい
「関数フィッティング」と言い換えると良し
「回帰」という用語は、英語の「regression」からの翻訳である ゴルトンは、背の高い祖先の子孫の身長が必ずしも遺伝せず、平均値に戻っていく、
すなわち「後退(=regression)」する傾向があることを発見した。
実は、あとになってこれは生物以外の事象にもあてはまり
統計的に発生する事象と分かった
ゴルトンはこの事象を分析するために「線形回帰(linear regression)」を発明した。
線形回帰って単語かなりおかしい気がするがmiyamonz.iconおのれゴルトン!
ゴルトンにとって回帰はこの生物学的意味しか持っていなかったが、
のちに統計学の基礎となり、「回帰(regression)」という用語も統計学へ受け継がれたのである。
データに合う関数を求める、という意味合いで使っているが
言葉の意味が間違っているのを嫌って、「関数フィッティング」と呼ばれることも
上の話や平均への回帰を考えると、統計における回帰という用語は意味があっていなくてわけがわからんmiyamonz.icon いままで統計をちゃんと勉強する前にちらっと回帰という字を見てもまったくイメージが沸かなかったが
関数フィッティングであれば、直ちに理解できたように思う
以降、資料に合わせて回帰という言葉は使うものの、脳内では関数フィッティングと置き換えておこう
平均への回帰の簡単な理解の方法
サイコロを考えればいい
平均より高い目が出たサイコロを集めてもう一回降っても、平均は高くならない
たとえば、
すでにサイコロを振りおわり、
高めの数字が出たサイコロだけをピックアップする
それらの平均の数字は、3.5より高い 高いやつを選定したから
でも、当然それらを振り直すときは、平均は3.5になるはず
同様に
身長が高いグループを集めた平均は高い
もしも遺伝の影響がないなら、サイコロの場合と同様に、それらの子の身長は高くならず「平均に回帰する」
多少の遺伝があったとしても
偶然の要素もあるのならば、
当然偶然の要素の影響で、部分的な平均への回帰が入る
ということは、この事象の名前は回帰というよりも、「相関が低い」という方が適切とも言える
単語のイメージを画像検索で理解すると
regression
https://gyazo.com/b475673fbcf82b776127aaf5e660edf0
英語圏でもregressionは統計のイメージが強くあるっぽいということがわかる
regress ←→ progress
regress
https://gyazo.com/68d19f405565657137aa1cf81d90a38f
動詞にしたらちょっと元来の意味っぽいのがある