相関係数と散布図とサンプルサイズ
from データの相関
相関係数と散布図とサンプルサイズ
サンプルサイズ(俗にいう「データ数」)により相関係数と散布図の対応のようすはかなり変わる
下図はN=10の例(※サンプルサイズ(データ数)のことをNということが多い)
https://gyazo.com/db5c6a3047aa8c840f23f9f7f359408c
N=30で何度かサンプリングしてみると…
https://gyazo.com/9649a336ab11fc84d4bcb2b23f050bed
たまたま得られたサンプルの偏りで様子が大きく変わり得る
相関係数はあくまで目安
相関係数だけでも、散布図だけでも、性急に判断しないことが大事
クイズです
以下の2つの散布図のデータは、それぞれ相関係数がいくつくらいだと思いますか?
https://gyazo.com/4e3b70292b16d4a787d66231e9c5197b
(下のほうに答えがあります。まずは見ずに考えてみましょう)
答えは・・・
https://gyazo.com/278fc6e14f730230c3e6faa5eedc242e
どうでしょうか? イメージと合っていましたか?
では、これらはどうでしょう?
https://gyazo.com/d2881e11adea99746fa0587c3b249b5b
(下のほうに答えがあります。まずは見ずに考えてみましょう)
答えは・・・
https://gyazo.com/2c614682a2bcfe5f175a35ff5280fe28
相関係数にあるように、相関係数(rとおく)の強さの目安として、以下のような分類がしばしば使われる・・・
$ r=0の場合:無相関(相関なし)
$ 0 \lt |r| \le 0.2:ほとんど相関なし
$ 0.2 \lt |r| \le 0.4:弱い相関
$ 0.4 \lt |r| \le 0.7:相関あり
$ 0.7 \lt |r| \le 1:強い相関($ |r|=1:完全な相関)
・・・ということがよく言われるのですが、みなさん、散布図のイメージと結びつきますか??