データの代表値
データの代表値とは
分布の中心についての特性値を代表値といい、最頻値、中央値、平均値がある。正規分布であれば左右対称なのでこれらは一致する
代表値を使うことで、データの分布の特徴を表せる。しかし、代表値だけでは特徴を表しきれないこともあるので注意!
最頻値
最も頻繁に出現する値を最頻値という。
Excelで求める際には、MODE関数を用いる。
=MODE(範囲)を入力
https://gyazo.com/694fedae1fc8077b85c9106217c2d54f
平均値
平均の概念は、幾何平均などがあり一通りではないが、算術平均が最もよく用いられる。
算術平均とは、n個の各個体の観測値の合計を全観測数(サンプルサイズ)nで割った値のこと
Excelで求める際には、AVERAGE関数を用いる。
=AVERAGE(範囲)を入力
https://gyazo.com/f4b43859c402959ac5dc00ff60968c2c
外れ値があるとデータの分布の特徴を捉えにくくなる。 外れ値とは、極端に大きいもしくは小さい値のこと
ExcelのTRIMMEAN関数を使用すると、外れ値の影響を除いた平均値を出せる。
中央値
データを値の昇順に並べたときに中央に位置する値を中央値という。
Excelで求める際には、MEDIAN関数を用いる。
=MEDIAN(範囲)を入力
https://gyazo.com/8445b1a51925773e9d137eac5d5e877d
3つの図の引用元
<参考文献>