なぜ分布を可視化するか
なぜ分布を可視化するか
(1) データの全体的様相を直感的にとらえる
「度数の最も多い階級は?」「データがどの程度ちらばっているか?」「分布はどんな形?」などなど
(2) 分析の手がかりを得る
たとえば特定の値や階級に過度に集中しているデータは、他の変数との関係を分析する必要がないだろう、など
(3) ありえない値、入力ミスによる値などを発見する
たとえば「こんな大きな値を取るわけがない」などがわかる
(1)~(3)のいずれも、元データの数値のみとか、数値要約した統計量のみなどでは把握しにくい
(参考)吉田寿夫, 「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」, 北大路書房, 1998
分布を可視化する重要性
統計学では、たくさんのデータについて何が言えるかを知りたい
平均値などの数値要約が役立つ
しかしそれだけではデータの分布について十分にはわからない
たとえば、「〇年間で平均所得が〇〇円上がった」という記述にはどのような意味をもつか?
「上がったので良かった」と単純に言えるのか?
データの分析を始める前に、分布を意識し、可視化して把握することが非常に重要
データの全体像をつかむと、数値要約の意味もより鮮明になる
上の例だと、たとえば、平均は上がっても格差は開いているかもしれない、などが見えてくる
分布のある側面(平均値など)のみを強調せず、分布全体の特徴をとらえることを心がけよう(自分が分析するときも、ひとの分析を見るときも)