多次元分析
from データの性質と分析の関係, 2つ(以上)の質的変数に関する集計・可視化
多次元分析
クロス集計を拡張した多次元の集計
複数の次元(ディメンション)を分析(比較)の切り口として、データを切り分けて(グループ化して)集計する
一つひとつの変数を列として持った多次元データを扱う
基本的に、質的変数はディメンション(次元)、量的変数はメジャー(集計対象の値)として扱う
複数のディメンションを軸とした超立方体(キューブ)を考え、ディメンションごとにその取りうる値でデータを切り分けてグループ化し、そのグループに対して、個数のカウント、合計、平均などの集計を行う
その結果はクロス集計表で表わすほかに、グループごとの集計をうまくビジュアライゼーションすることでより効果的に分析を行うことが目指される
→ 多次元分析とビジュアライゼーション
https://gyazo.com/96cba0597c40f8edbded6a50725ab2dd
多次元分析の重要性
BIツールや、Excelのピボットテーブル、RやPythonでのデータフレームに基づくデータ分析などは、N次クロス集計を基本とした多次元分析をベースとしている
この多次元分析の考え方と、上のようなツールによる方法を理解しておくことで、効果的・効率的な探索的データ分析を進めることができる
現代的なデータ分析の基礎概念・基礎スキルとして、非常に重要
多次元分析のための適切なデータ構造
多次元分析を行うためには、分析対象のデータを、そのために適切な構造に整えておく必要がある
データの縦持ちと横持ち、Tidy dataといった概念が重要
(参考)「グループごとの集計」の具体的な姿(Tableauを例に)
「グループ化してグループごとに集計する」ということをより具体的にイメージするために、例として、Tableauでの多次元分析について詳しくみてみよう
以下の縦持ちデータを分析することを考える
https://gyazo.com/ebbae0492c569034a10c2666117303b5(さらに下に続き全669件のデータ)
「学年」「ゼミクラス」の2つのディメンションでクロス集計表を書く場合
https://gyazo.com/463a6be280cab0262781329f07d76c1a
「学年」は3種類、「ゼミクラス」は5種類の値をとりうるので、3×5=15個のグループができる
その15個のグループそれぞれについて、データの度数をカウントしている
ここで、Tableauの画面左下をみてみよう
https://gyazo.com/42b703542e9e581dc5c2089282f01202
「15個のマーク」とあるが、この「15個」は、できたグループの数のこと
「マーク」とは、「グループに含まれる値を何らかの形で視覚化したもの」といったイメージ
上の例では、マークが「自動」となっているhttps://gyazo.com/21b527429fcd68dc7404e191365059cfが、自動的に「テキスト」が選ばれており(https://gyazo.com/3cbe600cc2428d043bb83a71b9cd1439)、「カウント」のフィールドがテキストとして選ばれているhttps://gyazo.com/46d206458e182657bb97b8ccbd507f43ので、集計値(カウントした度数)そのものが文字として視覚化されている、ということになる
このクロス集計表を集合棒グラフにしてみると・・・
https://gyazo.com/dab309a86556425ad0e832adcd62342f
ここでも「学年」×「ゼミクラス」で15個のグループに切り分けられているのは変わらないので、同じく「15個のマーク」となっている
マークは「自動」となっているhttps://gyazo.com/f67a10a2239b4202d456e3a3a3da3c30が、マークの種類は「棒」が選ばれている(https://gyazo.com/849082a57a0c265f840ba159bd4ea5ef)
https://gyazo.com/0d63682b214594d2e41593221f1c8465というように「行」に入っている「カウント」のフィールドが集計値であり、マークの「棒」というのは、この集計値の大きさ(つまりここでは度数そのもの)をマークとして「棒」で表している、ということであり、結果的に棒グラフが作られている、ということになる
さらに、https://gyazo.com/642ddffdeb2d6ca6f7f8639d9c22bf72となっているように、「ゼミクラス」も「色」に指定されているので、マークとしての「棒」それぞれに、「ゼミクラス」の値に応じた色が塗られている、ということになる