投票の多いPolisが一塊になる現象
なぜか?仮説
複数のトピックが混ざっている場合に、本質的に2次元で表現しきれない
なら相関の高いいくつかの軸を取り出せばよい?
世論地図ではトピックごとにわけてあるから起こらない?
寄与率を見て適切に分割することが可能ではないか
軸をクラスタリングする
N本の軸がある、2本ずつ取れば情報のロスはないが、数が多くなってしまう、実際にはあまりロスの増えない組み合わせがあるはず
問題を簡単にする
N本の軸を2つのグループに分けて、それぞれでPCAをしたときに「失われる情報」である3次元以降の分散を最小化したい
最適化問題
既存のアルゴリズムに帰着しそう
ユーザがコメントを追加できる場合、本質的に元データの次元がどんどん高くなっていく
なら固定質問の世論地図では怒らない?
すべてに回答しないユーザの扱いの問題
数学的に可能性を感じているが解明できていない
シンプルな事例として$ (1, 0, 0), (0,1,0), (0,0,1)の3通りの意見集団がいるとする
これは2次元空間で正三角形になっている
ところが全ての質問に回答しない人がいる
$ (-, 0,0), (1, -, 0), (1, 0, -)
これらは欠損値を平均で埋める処理によって
$ (1/3, 0,0), (1, 1/3, 0), (1, 0, 1/3)
になる
これ本来の二次元空間上にないよね
それがどの程度悪さをするのかはわからない
今回のケースではそもそも明確に3つに別れていたのに平均値による欠損埋めによって中間的なデータが生成されてクラスタの明瞭な別れ方を妨げるようになった
今回のケースに限っていうなら1件の欠損までは他のデータを使って埋まれば元通りに復元できるんだ
十分データ量が多い状況においては「回答したものが同じである他のデータ」からk近傍法とかで復元できるはず
欠損値を平均値で埋めるのがよくない可能性
しかしまぁとりあえずPolisの数学サーバに手を入れないと解決できないわな