「相関」を考えるということ
from データの相関
複数の変数の間の関係
データの分布と数値要約は、ひとつの変数について整理・要約するもの(一次元のデータ)について扱った
実際のデータ分析では、複数の変数の間の関係に興味がある場合がほとんど(二次元(以上)のデータ)
考えるべき変数がたくさん考えられる場合、注目する2つの変数の間の関係を調べることが基本
実際は多変量解析など多くの変数を総合的に分析する枠組みが用いられるが、2変数の関係についての基本をおさえておくことは非常に大事
たとえばこんな話
ある高校で、数学と英語の実力テストを実施しました
結果を散布図にプロットしてみました
https://gyazo.com/973f8d3956d1477d42fd35c403ca0cef
ここから何が言えるか?
「数学ができる生徒は英語もできる!」
「数学を勉強すれば英語の点も上がる!!」
そうではない
実はこのテストは1年生24人と2年生26人が受験したものだった
学年別に散布図を書くと……
https://gyazo.com/5d60ab883bccdb9cdadcad623f87491e
ということで…
「数学ができる生徒は英語もできる!」 → 学年ごとには相関がなさそう!
「数学を勉強すれば英語の点も上がる!!」 → そもそも相関と因果を間違ってない?
相関について適切にとらえる
相関関係:2つの変数の間の関係
正の相関、負の相関、無相関って??
「相関」とは、2変数の「どのような」関係のことを指すのか?
2つの変数の間の相関に関する数値的表現と可視化
散布図:2つの変数をx軸、y軸において描いたもの
どうやって描く??
Excelで、あるいはプログラムで
相関係数:2変数の相関関係の強さを示す指標
いろいろ種類がある?
どうやって計算する?
Excelでは? あるいはプログラムでは?
相関係数の値の大きさや符号は何を示す?
相関を考えるうえで注意すべきことをおさえる
擬似相関って?
層別の相関って?
相関と因果の混同って?
これらの実例は?