代表値
代表値とはグループの特徴を表す値。有名な3つの語句を再確認。
順序尺度(データの分類)を名義的に数値で表したもので代表値を考えることは少ない 平均値:全てのデータを足し合わせて、その合計をデータの個数で割ったもの。外れ値(極端に大きかったり小さかったりする値)の影響を大きく受ける。一般に$ \bar{X} と表されることが多い。(変数がX以外の場合はそれに応じて$ \bar{Y}や$ \bar{Z}などとする)
Excelの関数は=AVERAGE()
例えば、年収のデータについて
Aさん:200万 B さん400万 Cさん:1200万
これらの平均値は(200+400+1200)/3=600(万)となるが、これはCさんの影響を大きく受けてしまっており、実際のデータとの認識で齟齬が生まれてしまう。(平均値600万といわれたら高い気がするけど実際はCさんだけ…)
平均値を見て、データの全体を分かった気になるのは危険なことも…
最頻値:対象者が一番多い値。最頻値が2つ以上ある場合もありうる。最頻値は度数が最も多いデータの値で、度数そのものでないことに注意。例えば{1,2,5,5,5,6,6,8}というデータでは”5”という値が3つあって最大度数になっているが、最頻値は”3”でなく、3という最大度数をとる値の”5”である。Excelの関数は=MODE()
中央値:データを大きさの順に並べたときの真ん中の値。データ内に明らかな外れ値がある場合は、一般的に代表値として中央値が使われる。(∵平均値は外れ値の影響が大)データが奇数(2k+1)個の場合はk+1番目に大きい値が中央値になる。データが偶数(2k)個の場合、k番目とk+1番目の値の平均値が中央値となる。
例えば{0,1,3,5,7}の場合、中央値は3番目に大きい”3”{0,1,3,5,7,8}の場合、
中央値=(3+5)/2=4となる。
Excelの関数は=MEDIAN()
ALBERT 色々な代表値 閲覧日 11/5
吉田寿夫 1998年 『本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本』 北大路書房