正規分布の何がいいの?
結論
「テスト問題は正規分布になるように作るのがよい」とか「偏差値は正規分布を仮定している」とか言われることがあるが,そんなことはない。全国規模のテストでも正規分布にならない。また,偏差値は平均50,標準偏差10に揃える線形変換であり,分布とは無関係に使える——「偏差値50〜60には全体の34.1%が入るべきだ」などという無理を言わない限り。
全国学力テストの得点分布
次の図は『Rで楽しむ統計』 p.28に載せた2015年度全国学力テスト(全国学力・学習状況調査)の中学理科の正答数分布である。同じ平均・分散の正規分布の密度関数を重ね書きしてある。 https://gyazo.com/227746d183a2ded7fd1f7815becdf701
ご覧のように,正規分布とは似ても似つかない。全国の中学生が受ける試験でもこれである。人数が増えたら正規分布に近づくなんてことはない。なお,全国学力テストの分布は国立教育政策研究所で公開されている。 センター試験の得点分布
センター試験の得点分布はあまり公開されていないが,やはり正規分布とは似ても似つかない。例えば大学入試センター研究紀要にあるNo.38の「区分線形関数による得点調整」のいくつかの例を見られたい。二峰分布になっているものもある。 https://gyazo.com/5c91486eb48206dab46c595d49f3a385
身長・体重
小学校身長
https://gyazo.com/643777a47d0aa4a12f50bb7501badd8b
小学校体重
https://gyazo.com/e67e329d7102e75c00fac80557e5f050
中学校身長(サバを読んでる子がいる? 例えば159cmだったら160cmと報告するとか)
https://gyazo.com/4892ae4d6388a47a7a393804f79a928c
中学校体重(サバを読んでる子がいる?)
https://gyazo.com/d2a00acc3739f1a07728fbfe666414eb
体重は身長の3乗(BMIを考えれば2乗?)に比例するから,身長がほぼ正規分布なのに体重は正規分布からの外れが少ないのだろうか,と思ったけれど,そうでもなさそうだ。 ほかの例
https://okumuralab.org/~okumura/stat/img/150809a.png
https://gyazo.com/8bbbc1fc6063510ecc4f0bf59c42587a
code:toeic232.R
s = c(18, 8, 21, 245, 1138, 2346, 4121, 5931, 7217, 7921, 8598, 8604, 8499, 7699, 6596, 5522, 4638, 3358, 2804)
t = c(10, 45, 95, 145, 195, 245, 295, 345, 395, 445, 495, 545, 595, 645, 695, 745, 795, 845, 895, 990)
hist(rep(t1:19, s), breaks=t, right=F, col="gray", ylim=c(0,0.0025)) curve(dnorm(x, 576.1, 173.8), add=T)