2つ(以上)の質的変数に関する集計・可視化
from データの性質と分析の関係
2つ(以上)の質的変数に関する集計・可視化
2変数の取りうる値の組合せごとに度数を数えたクロス集計表をベースに、2つ(以上)の変数の間の関係を知る
hr.icon
度数のクロス集計表
度数(カウント)のクロス集計表
2変数の取りうる値の組合せごとに度数を数えて(カウントして)表にする、度数のクロス集計表が基本
https://gyazo.com/ea43e0f528641db3856a29fe1755d24a
表の縦方向、横方向をそれぞれ分析対象の2つの質的変数に対応させ、それぞれの取りうる値を見出しとする
(見出しの部分はそれぞれ表側、表頭ということもある)
縦、横の各値のクロスする場所に、対応する組合せとなるデータの数(度数)を記載する
この表によって、変数の値の組合せごとのデータの多寡がわかる
なお、このクロス集計表は、下のデータの「学年」と「ゼミクラス」の「2つの質的変数」を用いて描いたもの
https://gyazo.com/c06ff886c2a915400754eb7b379868fa(さらに下に続き全223件のデータ)
度数のクロス集計表をもとにした可視化
集合棒グラフや積上げ棒グラフなどで可視化することも多い
集合棒グラフの例
https://gyazo.com/699c4517b84d7cc3c158e94c24a6fb29
クロス集計表の縦、横の変数のいずれか片方の値でグループを作って棒グラフを描く
上図は縦の変数(学年)でグループを作った場合。横の変数(ゼミクラス)でグループを作ることもできる(分析目的に応じて使い分ける)
https://gyazo.com/bfd031177f45a87c95feb0cd3df6b7db
積上げ棒グラフの例
https://gyazo.com/d339ed2d24fece54265959bea6194843
クロス集計表の縦、横の変数のいずれか片方の値を積み上げて棒グラフを描く
上図は縦の変数(学年)ごとに横の変数(ゼミクラス)を積み上げた場合。積み上げる変数を入れ替えることもできる
https://gyazo.com/5a739eccea0e2168aee3fb29598796c7
割合に直したクロス集計表
度数のクロス集計表を、割合に計算し直すことも多い
これによって、ある質的変数の分布を、別の質的変数を切り口に比較することができる
縦、横いずれかの変数の合計を分母とした割合を計算する(100%積上げ棒グラフ等)
https://gyazo.com/cb2ed4944b0157cc72c7613957338826
これは学年ごとに(横方向で)100%となるように割合を計算した場合
https://gyazo.com/aa2e4ec25afc3efb6336dc51c31cd1d8
この場合は、「ゼミクラス」の分布を、学年ごとに分けて調べた、ということになる
つまり、この表によって、ゼミクラスの分布を学年比較できる
100%積上げ棒グラフによって可視化することが多い
https://gyazo.com/2af79c00a63f613dc51cb46f14121441
一本一本の「帯」が、その学年のゼミクラスの分布を示しているので、ゼミクラスの分布の学年比較をしていることになる
hr.icon
量的変数の集計をするクロス集計表
別の量的変数の集計をするクロス集計表
2変数の取りうる値の組合せごとに、別の量的変数の集計をするタイプのクロス集計表も非常に重要
https://gyazo.com/2633d04baf80bc964a39ab6b209c11ef
これは、学年×ゼミクラス、というクロス集計表において、これまでの例のように「度数」を計算するのではなく、「点数」という別の量的変数を用いて、その平均値を計算したもの
このクロス集計表は、下のデータの「学年」と「ゼミクラス」の「2つの質的変数」を用いたクロス集計表で、「科目A」という量的変数についての集計(平均値の計算)を行ったもの
https://gyazo.com/c06ff886c2a915400754eb7b379868fa(さらに下に続き全223件のデータ)
このデータから「学年」が「2年」かつ「ゼミクラス」が「黒沢」であるデータだけをグループ化して取り出し、そのグループだけで「科目A」の平均値を計算したものが「51.53」である、ということ
なお、平均値だけでなく、合計、中央値、標準偏差、などなど、いろいろなタイプの集計を行うことができる
要するに、グループ化したデータだけで、着目する量的変数に対して、1つの量的変数に関する集計・可視化で示した数値要約(基本統計量)を行う、ということ
https://gyazo.com/a75a5fa120fea7b820aa35b65f277b15
集合棒グラフ等で可視化することもできる
https://gyazo.com/54ea0cba776368092f7ca8fa5d6d75e8
hr.icon
N次クロス集計表
3つ以上の質的変数でクロスする
3つ以上のN個の質的変数で作成したN次クロス集計表を作成することもできる
https://gyazo.com/b71ce1de1dbc13c6ef2494b763989768
このクロス集計表は、下のデータの「科目」と「学年」と「ゼミクラス」の「3つの質的変数」を用いたクロス集計表で、「点数」という量的変数についての集計(平均値の計算)を行ったもの
https://gyazo.com/ebbae0492c569034a10c2666117303b5(さらに下に続き全669件のデータ)
表の縦横(行と列)にどの質的変数をどの順番で置くかで、グループ化の構造も任意に変えられる
https://gyazo.com/acfdfe5abf24e24286110d4a76dc9a18
このクロス集計表に基づくグラフ(集合棒グラフ等)で可視化することもできる
https://gyazo.com/518bd334effedadb21776d29b0cc3861
次元が多いと棒グラフ系はわかりにくくなるが、多次元の場合はクロス集計表をもとにヒートマップを描くとよいことも多い
https://gyazo.com/cb37319f71e8b2ff7bf19085fb3e835a
N次クロス集計と多次元分析
BIツールや、Excelのピボットテーブル、RやPythonでのデータフレームに基づくデータ分析などは、N次クロス集計を基本とした多次元分析をベースとしている
この多次元分析の考え方と、上のようなツールによる方法を理解しておくことで、効果的・効率的な探索的データ分析を進めることができる
現代的なデータ分析の基礎概念・基礎スキルとして、非常に重要