相関をみる上で注意すべきこと
from データの相関
統計的な「相関」と、個別のケースをしっかり区別する
たとえ2変数が相関関係にあったとしても、「Aが高ければ必ずBも高くなる」とはいえない、ということをきちんと意識することが重要
そのような可能性が高い、あるいはそのような傾向がある、ということに過ぎない
あくまで統計的なものであることを忘れずにいよう
全般的傾向が、個々のケース(事例)に常にあてはまるとは限らないということを理解しておくことはとても大事
たとえば下の例だと、全般的傾向は「日本語文章検定の点数が高ければTOEIKの点数も高い」といえるが、赤く塗った2つの点をみると、日本語の点数が高い右側の点は、TOEIKの点数は低くなっている
https://gyazo.com/3a0bf5cc7487fd489035f85e32153025
この考え方を忘れると、「相関がある=常にAよりBが両変数で大きくなる」のような極端な理解をしてしまったりする
この「常に」が成り立つのは相関係数が1(または-1)のときだけ!
このような「統計的な傾向として把握する」ことは、データの分布と数値要約で学んだ「データの分布を意識する」ことともつながる
代表値が集団のすべてを表さない、ということと本質的に同等
過度な一般化をしないことが重要!(確率的思考をする)