疑似相関の例
#テーマ3
例1
擬似相関の例として、ある街でのアイスクリームの売り上げを考えてみよう。アイスクリームの売り上げが最も高い時期には、プールでの溺死事故も最も多い。アイスクリームの売り上げ増が溺死増の原因(あるいは結果)であると主張することが、2つの事象間の擬似相関を暗に想定していることになる。実際には、猛暑が両方の原因であろう。猛暑は見えない潜在変数の例である。
引用
Wikipedia:疑似相関
https://ja.wikipedia.org/wiki/擬似相関
2020年12月2日閲覧
例2
次のデータは2015年12月末時点の各都道府県内にある映画館のスクリーンの合計数と可住地面積100当たりの薬局数を表したものです。このデータを用いて相関係数を算出すると、「0.82」でした。つまり、映画館のスクリーン数と薬局の数には強い相関があるという結果でした。
https://gyazo.com/fb91177f20b40c00a06a0a72bc3111f1
人口密度と映画館のスクリーン数、及び人口密度と薬局の数の相関係数はそれぞれ「0.85」と「0.98」でした。つまり、人口密度がスクリーン数と薬局の数それぞれと強い相関を持っているため、これらの影響を除いた上で映画館のスクリーン数と薬局の数との相関関係を調べる必要があります。
https://gyazo.com/5a17b0cdfd71adcc7199b87dcfbd0d08
偏相関係数を計算すると次のようになる。
https://gyazo.com/deb766aadde281749da5c826924488f0
この結果から、映画館のスクリーン数と薬局の数との相関は、実はあまり強くないことが分かります。
引用・参考
Bellcurve:ホーム > 統計学の時間 > Step1. 基礎編 > 26. 相関分析 > 26-4. 偏相関係数
https://bellcurve.jp/statistics/course/9593.html
2020年12月2日閲覧
例3
一見相関がありそうに見えるけれど、実は相関がないということがあります。図6は、大学のクラスの女性比率とそのクラスの英語の平均点の関係を表したグラフですが、全体で見ると0.80という高い相関がありますが、学部別(赤が理学部、青が外国語学部)に相関係数を見ると、理学部も外国語学部も0.1程度なので学部内では相関がないことになります。つまり、外国語学部は女性比率が高く、理学部は女性比率が低い。英語の点数は、「学部が違う」という要因で差があるのであって、外国語学部の男性は英語の点数は高いし、理学部の女性は英語の点数が低いということだったのです。層別すると関係がないという現象は、実際の分析の時にも起きる可能性がありますので、クロス集計分析を行ない、データそのものへの理解を深めることが重要です。
https://www.albert2005.co.jp/knowledge/images/tech_multivariate_img04.jpg
引用
Albert:データ分析基礎知識 > 統計学とデータ分析 > 多変量解析 > 2変量解析とは
https://www.albert2005.co.jp/knowledge/statistics_analysis/multivariate_analysis/bivariate
2020年12月2日閲覧