箱ひげ図
箱ひげ図(box plot)
https://gyazo.com/7be91454ab7a3ba911a4ac29b3469816
上図はIris(アヤメ)データセットのデータをRのboxplot関数で描画したもの
(一般的な)箱ひげ図の見かた
https://gyazo.com/8713a1e83a1fabee196577fbb3494b20
$ IQR = Q_3 – Q_1としたときの$ \lbrack Q_1 - 1.5 IQR, Q_3 +1.5 IQR \rbrackの範囲の外にあるものを外れ値とする
上の$ Q_4・$ Q_0は、外れ値を除いたデータの最大値・最小値を使う
複数の変数の分布を比較する
ただし箱ひげ図は分布の細かなニュアンスはわからない
https://gyazo.com/6cc9cf25193492b238918db96dcc909d
(参考)データの横持ち・縦持ちと箱ひげ図の描かれかた
データには横持ち(wideフォーマット)と縦持ち(longフォーマット)という形式があり、いずれをとっているかによって箱ひげ図も描かれかたが異なる 横持ちの場合
https://gyazo.com/fe07bcf15be86280412000d52d86c48e
D~G列を選択して箱ひげ図を描くとこうなる
「別々の独立した項目」として箱ひげ図を描いていることになり、項目名は凡例で示される
縦持ちの場合
同じデータを「縦持ち」にすると…
https://gyazo.com/eca9f947eb92ddd08d20cfab4a42f2cf
D・E列を選択して箱ひげ図を描くとこうなる
D列の値によってE列がグループ化されて、それぞれについての箱ひげ図が横軸上に展開される
「D列が横軸」になるので、軸上にD列の値(項目名)が表示される
この場合、縦持ちデータのほうが本来は適切(別の言い方をすると、Excelの箱ひげ図は、縦持ちデータであることが前提となっている機能だといえる)
(今回の課題ではどちらでもよいです)
データの縦持ち・横持ちの考え方は慣れないと難しいが、クロス集計ベースのデータ集計・分析をする場合は身につけておいたほうがよい概念