なぜHDBSCANの結果がUMAPで引き裂かれるのか?
高次元空間でHDBSCANしてからUMAPの図が不可解という話
https://gyazo.com/5df492226e14c86b5a1fea14fc6d6f8d
しっかり語るには僕自身がしっかり見て実験をするべきだと思うが、Claude Codeが出してきた結果を見ると
そもそもクラスターをイメージするときに我々はつい2次元のクラスターを想像して、クラスターの中の点のほとんどは近傍がすべてクラスターの中の点であると思いがち
しかし実際のデータを見ると近い5近傍だけ見ても半数弱の点はクラスタ外の点と隣接している
30近傍まで広げると9割以上の点が近傍の1割以上をクラスタ外の点がしめる
つまり、クラスタは一つの単語ではなく細いそうめんなんだ
https://gyazo.com/edd46053c800141f2b60845e392969c2
これが高次元空間に漂ってるのを、無理やり2次元にしようとすれば、それはちぎれたり交差したりもするよなぁ