シンプソンのパラドックス
シンプソンのパラドックスもしくはユール=シンプソン効果は1951年にE. H. シンプソンによって記述された統計学的なパラドックスである。母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある。つまり集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。 $ A/B > a/b,\quad C/D > c/d でも$ (A+C)/(B+D) < (a+c)/(b+d) になり得る。
例1
平均点がそれぞれ100点>90点、10点>0点の関係だが、「平均点90点」「平均点10点」の人がたくさん(9人)いるので全体平均では逆転する
(100 * 1) / 1 > (90 * 9) > 9
(10 * 9) / 9 > (0 * 1) > 1
190 / 10 < 810 / 10
例2
もともとどちらも2/4だったが、分け方を工夫することによってそれぞれの分割で勝つことができる
2 / 4 = 2 / 4
1 / 1 > 2 / 3
1 / 3 > 0 / 1
データ・ドリブンで因果を解釈しようとしたのがいけないという説明
データが全く同じであっても、分割して比較するのが正しいか、分割せずに比較するのが正しいかは異なる