多変量解析
#テーマ3
多変量解析では、例えば、次のようなことが可能である
アンケートの結果から商品の強み・弱みを知りたい
身体測定のデータから病気になる確率を知りたい
既存店舗の売上や顧客数などのデータから、新店舗の将来の売上を予測したい
複数のデータの相互関連を分析できます。
多変量解析でできること
冒頭でも説明したとおり、多変量解析は特定の解析方法を指すものではありません。そのため、「扱うデータ」と「目的」によって分析手法を決める必要があります。
いざ多変量解析をする際に、分析手法を決めるための基礎知識をまとめましたので、理解に役立ててください。
多変量解析で扱う4種類のデータ
多変量解析で扱うデータは、4種類の「尺度」と呼ばれるグループにわけて解析を試みます。種類には次のようなものがあります。
量的データ:間隔尺度、比例尺度
質的データ:名義尺度、順序尺度
多変量解析で扱うデータの種類
測定値は、このいずれかの尺度を使用して解析されます。
多変量解析の2つの目的
多変量解析の目的は「予測」と「要約」の2つがあります。それぞれの例を表にまとめています。
多変量解析の目的
まずは解析における目的を明確にしてから分析を始めましょう。
多変量解析の手順とは?
ここからは、実際に多変量解析をする際の具体的な手順をみていきましょう。多変量解析は、多くの要素の相互関連を分析できますが、最初から多くの要素を一度に分析するわけではありません。
下図のように、まずは単変量解析や2変量解析でデータの特徴を掴んで、それから多変量解析を実施するのが基本です。
多変量解析の手順
それぞれのステップで、具体的に何をするのか、ご紹介します。
①データ収集:対象データの選択、データクリーニングなど
まずは、解析する対象のデータを収集し、選択する必要があります。不明瞭なデータがあれば取り除くなど、データのクリーニングもこの段階で実施しておきます。
②単変量解析(1変量解析)
単変量解析の作業は、主に次の3つです。
外れ値の処理
異常値の処理
図による分布状況確認
以下で、それぞれの作業についてご紹介します。
外れ(はずれ)値の処理
外れ値とは、多くの値が分布している「正常値とみなすことのできる範囲」からの差が大きく、「外れ」に分布してしまっている観測値のことです。
外れ値の検定には複数の方法があります。
箱ひげ図を使う
スミルノフ=グラブス検定を使う
クラスター分析を使う
しかし、これらの方法で検定をしたとしても、外れ値とみなすかどうかには十分な検討が必要です。
例えば、人間の体重を例に見てみましょう。65~75kgの測定値が多い中に、一つだけ110kgの測定値があったとします。この110kgは外れ値ではなく、正常な測定値として扱うべきです。
異常値の処理
外れ値の中で、測定ミスが明らかな場合などは、異常値として処理します。
極端な例ですが、例えば、「はい」を「0」、「いいえ」を「1」と入力する調査の場合に、「3」が入力されていた場合は異常値とし、解析対象から外します。
図による分布状況確認
ヒストグラムや箱ひげ図などを用いて、視覚的に外れ値や異常値と考えられるものを見つけ、正常な値かどうか分析します。
③2変量解析
2変量解析は、その名の通り2つの変数を使って解析をします。実施する作業は、主に次の2つです。
相関係数の計算
図による分布状況確認
それぞれの作業を見ていきましょう。
相関係数の計算
相関係数を計算すると、各測定値の相関の度合を求めることができます。相関係数は、一般的に次の手順で算出されます。
各測定値の平均値を算出
各測定値の偏差(測定値-平均値)を算出
各測定値の分散(偏差の二乗平均)を算出
各測定値の標準偏差(分散の正の平方根)を算出
共分散(偏差の積の平均)を算出
共分散を各測定値の標準偏差で割って相関係数を得る
図による分布状況確認
クロス集計表や散布図などを用いて、視覚的に外れ値や異常値と考えられるものを見つけ、正常な値かどうか分析します。
④多変量解析
最後に、多変量解析を実施します。詳細な解析内容と手法は後述します。
hr.icon
続いて、代表的な多変量分析の手法を、「予測」「要約」それぞれの目的別にお伝えしていきます。
データを要約する場合
データ要約手法名 使用場面例
データを要約する場合には、次のような手法があります。
因子分析 主成分分析と同様の場面で使用する
主成分分析 有名人のイメージ調査において、複数のイメージを2~3個のイメージ項目に要約する
コレスポンデンス分析 自社ブランドと競合ブランドのイメージを表で視覚的に把握する
多次元尺度構成法 コレスポンデンス分析と同様の場面で使用する
クラスター分析 ユーザーの特性分類に活用して、ダイレクトメール送付の際に使用する
クラスター分析については、詳細を説明している記事がありますので、ぜひ読んでみてください。
データを予測する場合
データを予測する場合には、次の手法を使います。
データ予測手法名 使用場面例
判別分析 いくつかのグループが、どのような基準で分けられているのか分析する
パス解析 要素をパスで結んだパス図を用い、要素間の因果関係や相関関係を分析する
分散分析 商品AとBで高い評価をされているのはどちらか分析する。ABテストとも呼ばれる
コンジョイント分析 製品のどの属性によって評価がなされているのかを分析する
回帰分析 顧客アンケートなどで、ある項目の評価を別項目の評価から予測する
回帰分析については、詳細を説明している記事がありますので、ぜひ読んでみてください。
重回帰分析 顧客アンケートなどで、総合評価を個別の項目評価から予測する
重回帰分析については、詳細を説明している記事がありますので、ぜひ読んでみてください。
ロジスティクス回帰分析 1日の喫煙本数と1ヵ月間の飲酒日数から、がん発症との関連性を分析する
ロジスティクス回帰分析については、詳細を説明している記事がありますので、ぜひ読んでみてください
多変量解析を実施する際には、場面に応じた適切な分析手法を選択することが重要です。
。
参考資料
多変量解析とは?
https://udemy.benesse.co.jp/ai/multivariate-analysis.html