箱ひげ図
Box Plot
データの分布、中央値、四分位数、および外れ値を視覚化する
データのばらつきや異常値の確認に用いられる
John Tukeyが提唱
https://gyazo.com/dcd0a3b6c574b64c1b8ae1ba7bee4570 https://ja.wikipedia.org/wiki/%E7%AE%B1%E3%81%B2%E3%81%92%E5%9B%B3
箱
第1四分位数 Q1
箱の枠の上位側の辺
中央値 Q2
箱の内部の線
第3四分位数 Q3
箱の枠の下位側の辺
四分位範囲 IQR
箱の枠内の幅
ヒゲ
ひげの上端 (Q3 + 1.5 × IQR)
「データの最大値」ではないことに注意
ひげの下端 (Q1−1.5 × IQR)
「データの最小値」ではないことに注意
データが正規分布に従う場合、このひげの範囲内に99.3%のデータが収まる
ref ひげの係数の1.5の理由
点
外れ値を表す
ひげの上端とひげの下端を超えているデータ
要は、99.3%に収まらなかったものを外れ値と呼んでいる
箱ひげ図には大きく2種類あるらしい
https://biolab.sakura.ne.jp/box-whisker-plot-outlier.html
Schematic Boxplot
John Tukey
1977
Skeletal Boxplot
Velleman and Hoaglin
1981
何が違うのかは知らん
後者は、ヒゲの両端を最大値・最小値にするとか?(適当)
plt.boxplot()
sns.catplot()
/mrsekut-book-4802612907/124
https://en.wikipedia.org/wiki/Box_plot
https://ja.wikipedia.org/wiki/箱ひげ図