代表値
代表値とはデータを分析する際に指標として用いられる3つの値のことである。
#テーマ2
平均値
中央値
最頻値
平均値
全てのデータの数値を合計として足し合わせ、その合計をデータの数で割った値である。その名はとても有名であり、例えば夕方の天気予報で平均気温という言葉を耳にしたり、学校ではテストの平均点・・などなどよく聞く言葉である。手軽にデータ全体の分布を確認できることから多用されているが、他のデータに比べて極端に数値が大きい(小さい)値(外れ値と呼ばれるが)がデータに混入している場合、平均値自体がその外れ値に引っ張られることによって本来目安とすべき値からずれてしまう可能性があるという弱点が存在する。たとえば、身長が170cm、175cm、172cm、168cm、170cmの人たちがいて、この5人の平均身長を計算すると、171cmになるが、171cmの人はこの5人のうちの誰の身長でもない。
中央値
中央値とはその名の通り、データの総数のうちなんらかの基準を持ってデータを並べたときにある一定方向から数えて全てのデータの中央の値である。(存在しない場合はその前後の数を足して2で割った数)平均値では外れ値の影響がとても大きかったが、この中央値はあくまでデータの個数を指標にするので外れ値に引っ張られ流ことがないという利点がある。しかし、全ての値を活用してるとは言い難いために、ヒストグラムを用いたときに俗に言われる山が二つあるときなどには中央値が必ずしも目安となる値と断言することができなくなるので注意が必要である。
最頻値
最もよく現れる値または階級のことである。階級の場合、階級の下限の値と上限の値を足して2で割った数が最頻値として用いられる。しかし、全てのデータの数が同じときには最頻値が存在しなかったり、データすうが少なかったりする場合などには効果を発揮しにくいのが欠点である。
これらの上3つはデータを手早く使って指標を確認することができる。しかし、それぞれに対応する弱点も存在している。そのため指標を見てわかった気になってしまう可能性が存在する。そのためにこれらを組み合わせて、データの特徴を捉えたり、他にどのような可視化の手法を使うかの目安にするのが良いのかもしれない。
引用
統計学がわかった!(個人運営)(閲覧日2020/11/01)
代表値とは?平均値、中央値、最頻値の違いと使い分けを紹介
https://toukeigaku-jouhou.info/2015/08/22/post-37/