平均回帰
回帰とは元来、生物データから見出された現象であり、その最初はフランシス・ゴルトンにより1877年に発表された種子の重量に関する結果である。ゴルトンは7組のスイートピーの種子(種子の重量は組により異なるが、組の中では同じにした)を栽培し比較したところ、以下のことを見出した: 子世代の種子重量は親世代と同じく正規分布に従い、また子世代種子の平均直径を親の平均直径に対してプロットすると直線に近い関係がある(現在でいう線形回帰が適用できる)。
しかし、子の平均直径は親の直径と比較すると、より全体の平均直径に近づく傾向がある(回帰)。
彼は初めこの直線の勾配を「復帰係数coefficient of reversion」と呼んだ(いわゆる先祖帰りのような生物的現象と考えた)。その後この効果は生物的なものでなくデータの扱いの結果であることを発見し、その名を「回帰係数coefficient of regression」と変更した。この結果は「有利な形質をもつ個体が生存して子孫を残し、代を重ねるごとにその形質は顕著になる」という当時の進化に関する考えと矛盾するように見えて注目された。実際にはこの種子の大きさは遺伝による部分より偶然的変動が大きかったということである。彼はさらに研究を重ね、1888年に「相関co-relation」という言葉を使い、これを表す定数(相関係数)に"r" という字を用いた。
code:python
>> x = np.random.normal(size=100000)
>> t1 = np.random.normal(x, 0.3)
>> t2 = np.random.normal(x, 0.3)
-1.5580399900412445
-1.4286087235202238
-1.4260924898041
(16822,)