平均値と中央値の使い分け
平均値と中央値の使い分け
データの「代表的な値」とは?
統計的にデータを分析する目的は「一般的傾向を知る」こと
数量化された変数については基本的に平均値を用いるが、中央値を用いるのが妥当な場合もある 分布が(顕著に)歪んでいる場合
歪んだ分布のデータは、データの「ある点とある点の差」の意味が、データの大きさ(位置)によって異なることが多い たとえば「1年間に自発的に読んだ本の冊数」を調査したとき、「1冊も読まなかった人と10冊読んだ人の、本好きな程度の差」と「100冊読んだ人と110冊読んだ人の、本好きな程度の差」が等しいとは考えにくい
平均値は、「尺度上のどの位置においても、測定値間の間隔に一定の意味が付与できる場合」を前提としたものといえる 中央値もうまくいかないときがある
以下の2つのデータ系列の中央値は?
データ系列A: 0, 1, 2, 3, 10, 11, 12, 13, 14
データ系列B:6, 7, 8, 9, 10, 17, 18, 19, 20
いずれも中央値は「10」
しかし、データの分布の様子はかなり異なる
あくまでデータを1つの値に縮約したものなので万能のものではない
たとえば「こういう場合には中央値を使う」のように確実に言えるルールはない
データはなるべく豊かな情報をもとに分析することが重要
「用いる統計量を1つにしないといけない」ということはない
複数の統計量を用いて、また分布を図示して、多面的に解釈する
(参考)
吉田寿夫, 「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」, 北大路書房, 1998.
吉田寿夫, 「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本 補足Ⅰ」, 北大路書房, 2018.