多次元分析とビジュアライゼーション
from 多次元分析
多次元分析でやりたいこと
分析対象となるデータが変数を1つや2つ程度しか含まないことはおそらくあまりなく、現実的には、意味のあるデータ分析をするためには多変数(多変量、多次元)のデータを扱って、多面的な分析をすることが必要になる(ので、多次元分析の考え方が重要になる)
2つ(以上)の質的変数に関する集計・可視化にあるように、N次クロス集計表(多次元のクロス集計表)は、「ディメンション(質的変数)」を切り口としてデータをグループ化し、そのグループごとにデータの度数を計算したり「メジャー(量的変数)」の集計をしたりして、その結果をグループ間で比較する、ということが基本になる
多次元分析とビジュアライゼーション
多次元分析において、クロス集計表もひとつの可視化の形ではあるが、数値のままでは瞬時の判断は難しいので、グラフ等を用いたデータ可視化(ビジュアライゼーション)をすることが有効な場合がほとんど
上述のように、なんらかの形で、ディメンション(質的変数)を切り口にして、グループ間の比較をするのが分析の基本となる
ディメンションやメジャーの値を視覚属性(位置、色、形、大きさなど)に対応させる(マッピングする)のが、多次元データに対するビジュアライゼーションの本質といってよい(→ 視覚属性#6762850edbcf3c000092659d)
https://gyazo.com/f599e4a3705dac817913055468180151
ビジュアライゼーションの例
上の考え方によるビジュアライゼーションのいくつかの例
集合棒グラフ
https://gyazo.com/699c4517b84d7cc3c158e94c24a6fb29
「学年」「ゼミクラス」の2つのディメンションでグループを作っている
以下のような「グループごとのある値と視覚属性の対応」によってビジュアライゼーションをしている
「カウント」(度数)という集計値 → 「長さ」という視覚属性
「ゼミクラス」の値 → 「色」という視覚属性
ヒートマップ
https://gyazo.com/cb37319f71e8b2ff7bf19085fb3e835a
「科目」「学年」「ゼミクラス」の3つのディメンションでグループを作っている
以下のような「グループごとのある値と視覚属性の対応」によってビジュアライゼーションをしている
「点数」の平均値という集計値 → 「色」という視覚属性(値によって色の色彩・明度などを変える)
「点数」の平均値という集計値の文字そのもの
散布図
https://gyazo.com/d4a1c50bedc6f840086835a083c58bba
「学生ID」のディメンションでグループを作っている(この場合は1件1件のレコードをそれぞれ別のグループとみなすことになる)
以下のような「グループごとのある値と視覚属性の対応」によってビジュアライゼーションをしている
「教養力検定点数」の合計という集計値 → 「位置」という視覚属性
「TOEIK点数」の合計という集計値 → 「位置」という視覚属性
「学年」の値 → 「色」および「形(形状)」という視覚属性
インタラクティブなビジュアライゼーション
多次元データを分析するとき、いきなり「〇〇法」のような統計的な手法やモデルを適用するのではなく、まずはいろいろな角度からデータを見て、多面的な情報を得ることで、問題解決や仮説発見への示唆を得る、探索的データ分析のプロセスをふむことが重要であり、インタラクティブなビジュアライゼーションを実現するツールが発展している