データの分類
分析をする際に、対象となるデータがどのような特性を持つか知っておくといいよってことでまとめます。
そのデータは量が問題?
量的特性が問題なのか、それとも順序が定まらないような質的に異なるカテゴリーのどこに該当するのかが問題なのか
質的変数:(名義尺度)
対象間の量の違いでなく、質的な違いが問題となり、順序の定まらない複数のカテゴリーのどこに該当するかが分類される。例えば、血液型や出身地、「どこの球団のファンですか?」という質問に対する回答など。血液型はA型、B型、O型、AB型はこの順序でなくてもよく、どれに該当するかが問題
量的変数
数量化しても問題ない?
特定の数値を用いて表すことに問題はないか?
順序尺度の変数:
程度について言及しているが、それぞれの段階を明確に数値で表すことはできない。
例)アンケートの回答(非常に当てはまる、やや当てはまる、どちらでもない等)、成績(秀、優、良、可、不可など)、特上、上、並など
各カテゴリーを並べるときは、上等な順、または逆の上等でない順に並べないといけない。
この配列順序が決まるという点が質的変数との大きな違い。
比率(間隔)尺度の変数:
比率尺度と間隔尺度は良が0となる点が存在するか否かで分類されるが、分析法が異なることはほぼないので同じ扱いとする。
これらの変数は、各データの差が一定であるため配列順序は決まり、また対象データの差についての比較判断も可能になる。
例)長さ、時間、重さ、人数
https://gyazo.com/04aa78bab77a3afbd79e53d6dc5bb258
画像引用)リクルートマネジメントソリューションズ データの関係性を表せる「相関係数」と2つのの落とし穴
水準について
比率(間隔)>順序>名義の順で水準が高い
参考文献)吉田寿夫 1998年 『本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本』 北大路書房