対立次元
https://gyazo.com/188215f1b3ee60ca4f81903b19984082
対立次元
1: AとBが対立している
2: (A+B)とCが対立している
3: ((A+B)+C)とDが対立している
ここで次元数が足りなくて2次元のPCAではAとBが同一視されるようになる
非線形の次元削減(UMAPなど)では分かれるはず
実験してみた
code:py
A = np.array(-1, 0, 0)
B = np.array(1, 0, 0)
C = np.array(0, 2, 0)
D = np.array(0, 0, 4)
https://gyazo.com/078d108b99832fb2e292de77e40571cb
https://gyazo.com/01d4e366af768dca1b45154afc7f5809
SD=0.1
次元の不足によってPCAでは一番分離の少ないAとBが混ざって一つになっている
UMAPでは明瞭に分かれている
https://gyazo.com/188215f1b3ee60ca4f81903b19984082
SD=0.5
AとBのデータがそもそも分離しなくなってくることによってUMAPでもそれらが近接配置されている
https://gyazo.com/c733ac87a4d3201a55ddce0655e2ccdd
SD=0.75
A, B, Cが分離できなくてひとつながりになってくる
https://gyazo.com/4447528eb260a9cbdc596258b66831ca
SD=1
https://gyazo.com/e1338356d66661eba164d7ef0c0201c5
SD=1.5
渾然一体になっている
ヒモ状のアーティファクトが発生している
データが少ないからか?
10倍に増やしても無理
https://gyazo.com/f72964a477d766302cc989dad952a770
これらを区別するには変分ベイズが必要そう
Numpyで混合ガウス分布のEMアルゴリズムを実装した - 西尾泰和のはてなダイアリー
混合ガウス分布モデルのクラスタをk平均法とEMアルゴリズムと変分ベイズでそれぞれ推定 - 西尾泰和のはてなダイアリー
でもそもそも現実のデータに関して正規分布と仮定して良いか微妙なので筋悪