相関係数
#テーマ3
相関係数とは、2種類のデータの関係を示す指標である。相関係数は無単位なので、単位の影響を受けずにデータの関連性を示すことができる。相関係数は−1から1までの値をとる。相関係数はどの程度なら2変数のデータ間に相関があるのか、という統一的な基準は決まってないが、次の表のような基準がよく用いられる
https://gyazo.com/1d4e99b30d2b27ecc9b2dccdf4a9e969
相関係数が正であるときは、2変数のうち片一方の変数の値が増加したときにもう一方の値も増加する傾向にあると言える。これを正の相関という。
対して、相関係数が負であるときは、一方の値が増加するともう一方の値が減少する傾向にあると言える。これを負の相関と言う。
相関係数を求めるためには、共分散をそれぞれの変数の標準偏差で割る。次の公式で計算することができる。
https://gyazo.com/996a96a1f06f250648c28452c1f557a9
いきなりこの式を見ても理解しにくいが、平均値→偏差→分散→標準偏差→共分散をこの順に計算することで、相関係数を求めることができる。
相関係数はあくまで2変数の間に線形的なそう感があるかどうかを示す尺度に過ぎない。その扱いには注意が必要であり、データの関係性を調べる際には必ず、散布図と相関係数の両方から判断することが重要である。
例えば。相関係数が0に近く線形的な相関がない場合でも、散布図からは、二次関数的な相関関係が見られる場合がある。また、大きな外れて値が相関係数に影響を与えている場合もある。
引用・参考
相関係数の意味と求め方-公式と計算例/Sci-pursuit.com(閲覧日2020/1/28)
https://sci-pursuit.com/math/statistics/correlation-coefficient.html