データの性質
データの性質は主に4種類
定性データ:数値化できないデータ
名義尺度
等しいかどうかにのみ意味がある
血液型、動物の種類、性別など
順序尺度
大小比較は可能だが間隔や比率に意味はない
スポーツ順位、満足度
定量データ:数値で表すことができるデータ
間隔尺度
差分や和に意味はあるが比率に意味はない(真のゼロ点がないため)
摂氏温度、和暦、西暦
比例尺度
ゼロに意味があるため差分や和、比率に意味がある
絶対温度、身長、体重、距離、重量、時間
ここまでは教科書的で分類したに過ぎない。
これを使って様々な考慮をすることに意味がある。
何を回帰するのかという見立てを立てるときにそのデータがどんな性質をしているか考えよう。
割合誤差で見ても大丈夫なのか?間隔尺度だと比率は意味をなさない。
軸の範囲を雑に制限していいのか?比例尺度だと0(基準)からの距離が大事だから0を見せないといけない。
定量データとして数値を軸にプロットしてよいのか?それは順序尺度である可能性がある
データの性質はグラフの範囲を決定するのに役に立つ
名義尺度
いわゆるクラス。X軸で分けたとき、数値的な意味は持たせず並列して表示するのがよい。
順序尺度
項目間の順序は意味があるが、項目間の具体的な差は一定ではない
プロットするときは順序関係を見やすくするのを優先する
可能なら順序尺度ではなく、定量データで能力や成績などをプロットできればより豊かな評価ができる
間隔尺度
なにか自分で基準とした部分(水なら0度、西暦なら何かが発生した年など)を下端上端として設定。
比率に意味はないので、見せたい差を見せられるように適度にY軸範囲を適切にクロップする。
解釈をゆがめないように適切に行う
比例尺度
グラフに落とし込むとき、軸の下端は0にする必要がある
場合によっては差分を強調するために範囲を限定するときはある。
しかし本質を見失わないように。解釈を歪めないように。
グラフにするとき、データは比例尺度なのに0を見せてないみたいなミスが一番よく見る気がする。
間隔尺度が現れる頻度は低く、比例尺度の方が扱われることの方が一般的に多い。
データが比例尺度である可能性を考慮して、基準点があるかどうか?は常にグラフを書く前に確認しておくとよい。