回帰分析
from 相関関係と「予測」
回帰分析
$ xと$ yの関係を数式でモデル化し、$ xで$ yを説明しようとするのが回帰分析
$ xは説明変数、独立変数などと呼ぶ
$ yは被説明変数、従属変数、目的変数などと呼ぶ
https://gyazo.com/d23c7df9afa863c08e78bedbc4cac16b
$ y = ax + bでデータの関係を表わす
個々のデータを$ (x_i, y_i)(i = 1, 2, \dots, n)としたときに、誤差の二乗和$ L = \sum_{i=1}^n (y_i - (a x_i + b))^2を最小にするような$ a, bを求めるのが最小二乗法
こうして求められた$ y = ax + bを回帰直線と呼ぶ
回帰分析と相関
回帰と相関には密接な関係がある
https://gyazo.com/6cb8607882b92e775fe8438b3140310c
回帰直線:$ y = 1.45 x + 148.33
相関係数$ r:0.676
決定係数$ r^2:0.457
ピアソンの積率相関係数$ r = \frac{\frac{1}{n} \sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\frac{1}{n} \sum (x_i - \bar{x})^2}\sqrt{\frac{1}{n} \sum (y_i - \bar{y})^2}}の二乗$ r^2を決定係数という
回帰直線と各データの差(残差)の二乗和は$ (1 - r^2) \sum (y_i - \hat{y})^2と等しくなる
$ r^2が1に近いほど残差が小さくなる=データが直線に近づく
$ r^2は$ xが$ yを決定する強弱の度合い
非線形の回帰
2変数が非線形の関係の場合の回帰は?
直線だとどうやってもうまくあてはまらない
https://gyazo.com/3f44c69be396888c4d163e04b94fdf19
Excelではグラフ要素の「近似曲線」を詳細に設定することで非線形の回帰が可能
https://gyazo.com/192ff2e9348a01068c65308d230637df
https://gyazo.com/74f77d77db15ac448960dffca28995a7
このような「非線形の関数のあてはめ」をする方法として、近年は機械学習・AIが非常に発展している