外れ値
外れ値とは、平均値、中央値、最頻値などの代表値から大きく離れている値のことである。ただし、ただ離れているだけではなく、外れ値がグラフや散布図などで可視化した場合に孤立していることも条件の1つである。外れ値によって代表値に大きくずれが出ることもあるため、多くの場合、外れ値を除外して代表値を求めるなどしてデータを分析する、外れ値がなぜ外れてしま ったのか分析するという手法がとられる。
具体例
「神奈川県の中学校長の平均売春人数は25人である」
この1文を見て
神奈川県は治安が悪い
校長はそういう人が多いのか、学校は危険だ
他の県でも同じようなものなのだろう
というような偏見を抱く人もいるだろう。
その実態は、画像の校長ただ1人が12000人をフィリピンで売春したというだけのことで、日本での被害はないし、上記の偏見は全く的外れなものとなる。
https://gyazo.com/c6bcaf93ecc9b19695f4815eca0cf729
ちなみに最頻値と中央値は0,分散は300630となるので、いかにこの校長が平均を上げているのか、そしてデータが散らばっているのかがよくわかる。この校長を外れ値として除外すれば、平均売春人数は0に近い値となるので、正しいデータがとれ、
神奈川の治安は悪くなく、ほとんどの校長は健全で、他の県でも平均は0に近いのだろうということが分かる。
引用元
運営団体名:日本テレビ タイトル:News24 日時:2015/4