代表値の使い分け
代表値はデータの分布の特徴を表す一つの値であるが、それが完全だとは限らない。 平均値はその意味の明瞭性と簡単であることから基本的にすべての場合で計算はされる。 一方で、極端に大きい・極端に小さい値がある際には平均値がそちら側に引っ張られてしまうという欠点がある。
上のような際は計算された平均値を引っ張られている値であると意識したうえで考察する必要がある。
あるいは初めから外れ値を除外して平均を計算するという方法がある。
基本的には平均値が意味を持たない(外れ値がある)ときに活用される。 例
たとえば、よくある例として、日本人の平均年収や貯蓄額があります。
2016年のデータでは、日本の世帯の平均貯蓄額は、1820万円です!
と聞くと「えっ、平均的にそんなに持っているの?」と驚いてしまいますが、これにはワケがあります。
お金の額は、下限は0 円ですが、上限は存在していません。お金持ちはとんでもない金額の貯蓄額があるでしょうから、平均値を計算すると、大きな値のほうに寄ってしまうのです。
この場合、中央値や最頻値を見た方が、実際の状況を把握できるはずです。
中央値は1064万円。
100万円刻みで見ると、世帯数の最頻値は100万円未満です。100万円未満の世帯が最も多くて、次に貯蓄額100万円以上~200万未満とか、200万円以上~300万円未満の世帯が多いです。
こちらのほうが実社会の現状を把握するのに、見るべき指標になりますよね。
分布に歪みがあるかどうかを知るには、データをグラフにして見てみるのがよいです。 (引用1)
引用・参考