相関係数
相関係数
2つの量的変数(参考→データの尺度)の直線的な相関関係の強さを示す指標 一般に用いられるのは「ピアソンの積率相関係数」
間隔尺度・比例尺度のデータの相関の強さ
$ r_{xy} = \frac{\frac{1}{n} \sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\frac{1}{n} \sum (x_i - \bar{x})^2}\sqrt{\frac{1}{n} \sum (y_i - \bar{y})^2}}
ExcelではCORREL関数(もしくはPEARSON関数)
$ -1から$ 1の間の値をとる
プラスの値:正の相関
片方が増加(減少)するともう片方も増加(減少)
マイナスの値:負の相関
片方が増加(減少)するともう片方は減少(増加)
相関係数の強さの目安(相関係数を$ rとして)
$ r=0の場合:無相関(相関なし)
$ 0 \lt |r| \le 0.2:ほとんど相関なし
$ 0.2 \lt |r| \le 0.4:弱い相関
$ 0.4 \lt |r| \le 0.7:相関あり
$ 0.7 \lt |r| \le 1:強い相関($ |r|=1:完全な相関)
これらは絶対的なものではないので注意(数字だけで判断しない)
(参考:吉田寿夫,「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」(1998))
相関係数が示すものを正確に理解する
相関係数は「傾き」を反映せず、「まっすぐでない関係」も反映しない
「直線からばらついていない」ほど「強い相関」
https://gyazo.com/90cbc6bb0e07fad470c60a7562f9b2fb
(参考)その他さまざまな尺度のデータの相関
上で説明した、ピアソンの積率相関係数は、量的変数(比例尺度・間隔尺度)のデータについての相関係数であったことに注意!
質的変数のデータの相関を把握する方法もある(参考→データの尺度) 順序尺度同士の場合:
スピアマンの順位相関係数
ケンドールの順位相関係数
質的変数(名義尺度・順序尺度)同士の関係を分析する場合
クロス表を用いてクロス集計する
連関係数と呼ばれる指標を用いる
φ係数
https://gyazo.com/77213a92e07abfca80abafad072fe69e
クラメールの連関係数