外れ値
外れ値
分布から大きく外れている(ように思われる)値
「計測ミスの混入」など、理由がわかっているものをとくに異常値とよぶこともある
「外れ値である」ことの基準は?
明確な基準はない
何をもって「外れている」かは場合による
正規分布を仮定して、平均±2×標準偏差(2シグマ)の範囲外にあるデータを外れ値とする、というように基準を設けることもある(正規分布の場合は5%程度が外れ値になる) 外れ値の起こる原因は?
測定ミス、記録ミスなど
対象の特性によっては、小さな確率で起こることもあり得る
外れ値は除くべき?
データを除くことには慎重に
「外れ」ているとみなされること自体に情報がある
両端の何%かを除いて平均をとる調整平均(トリム平均)もある
スポーツの「芸術点」で最高点・最低点を除くような感じ