線形回帰分析
線形回帰分析は、1つ以上の既知の変数から連続変数の値を予測(推定)しようとするもの。
解析に用いる既知の変数が1つの場合は「単」回帰分析と呼ばれ、
既知の変数を複数組み合わせて用いる場合は「重」回帰分析と呼ばれる。
線形回帰分析では、散布図に「最小2乗回帰」を「適合させる」ことによって相関分析を行う。最小2乗回帰直線とは、すべてのデータポイントからできる限り距離を最小にするように描いた直線のこと。実際には、各データポイントから直線までの距離を2乗した「2乗和」を最小となるように描いた直線で、通常はデータを最も適切に要約するとされる「最小2乗直線」である。
https://gyazo.com/db3076fafe1dc605930a6f622f0ceae5
線形回帰分析では、既知および未知の値が直線的に関係するものと仮定されるため、データは最小2乗直線によって適切に要約しなければならない。そのため、線形単回帰「予測モデル」は、直線を示す代数方程式(y=mx+b)で表すことができる。ここで、yは予測される(反応)変数、mは回帰直線の勾配(ここでは、xの単位あたりの変化に対してyがどの程度変化するのかを示す回帰係数、または「ベータの重み」)、xはyの値の予測に用いる既知の(説明)変数、bは「y切片」、つまり回帰直線がy軸と交差する点を意味する。
https://gyazo.com/43bb80e42bc9ddb74ef9b38813d70947
線形関係による予測は、分析により確認し報告する必要がある。この仮定は「残差分析」で検定される。残差は、x、yの実測値と直線モデルによる予測値との差。
xとyの関係が線形である場合、残差のグラフを作成すると、x軸の値の全範囲にわたって差がゼロに近く幅の狭い帯の形をとる。つまり、すべてのxの値で任意のxの値に対するyの実測値とyの予測値の差が小さくなり、こうしたモデルによる予測の精度は高いものになる。
https://gyazo.com/492d13edbc89644d6e32905b35fcdfce
一方、残差のグラフがxの範囲に沿った幅の広い水平方向の直線である場合も関係は線形であるといえるが、データのばらつきが大きく、こうしたモデルでは十分に値を予測できない。また、その他の形状をとる残差のグラフは非線形の関係であることを意味する。
https://gyazo.com/a95662ddbe762ee950340abbce2b6737
関係が線形であるとの仮定を確認する際には、相関係数の2乗値である「決定係数」(r2)を報告する必要がある。r2は、モデルの適合度、つまりyの値のばらつきを既知のxでどの程度説明できるかを示すもので、重要な指標となる。r2の値が0に近いほどモデルの予測の精度は低く、値が1に近いほどモデルによる予測がよいものであることを意味する。
最後に、回帰モデルはデータのモデル化が適切であるか否かを検定し、「妥当性を確認する」必要がある。この妥当性を確認する方法の1つは、たとえばデータの80%でモデルを構築した後に、残りの20%のデータをもとに構築したモデルで適切に予測できるかどうかを確かめるというもので、これらのr2の値が類似していれば、モデルの妥当性が確認されたものと考えられる。もう1つの方法は、類似した別のデータでモデルを構築して既存のモデルと比較するもので、同様にこれらのr2の値が類似していれば、その妥当性が確認されたものと評価される。
参考:Ronbun.jp/ 相関と線形回帰分析/2021.01.06/