Considerably Improving Clustering Algorithms Using UMAP Dimensionality Reduction Technique: A Comparative Study
「UMAPで次元削減してからクラスタリングすると、精度と計算時間が大きく改善する」という研究
Considerably Improving Clustering Algorithms Using UMAP Dimensionality Reduction Technique: A Comparative Study
https://gyazo.com/47a4ecc636b7a8303f7a26e9178fcb4e
GPT5.icon
要点(結論)
高次元データをUMAPで低次元に埋め込んでから K-means/GMM/凝集型階層/HDBSCAN をかけると、精度(Accuracy/NMI)も実行時間も改善。特にGMMや階層系が大きく伸びるケースが多い。(ResearchGate) 対象は画像系の5データセット(MNIST、Fashion-MNIST、UMIST Faces、PenDigits、USPS)。(ResearchGate) 実験の中身
比較アルゴリズム:K-means/GMM/Agglomerative/HDBSCAN を、元の特徴量空間 vs UMAP後の埋め込み空間で実行して比較。評価は Accuracy と NMI。(ACM Digital Library) 結果例(論文の表より):
K-means(MNIST):Accuracy 0.53 → 0.91、NMI 0.48 → 0.85。(ResearchGate) 計算時間:HDBSCANは(元空間だと)26分超 → UMAP後は約5秒(MNIST/F-MNIST)まで短縮。(PMC) どう解釈すべきか(実務示唆)
「UMAP→クラスタリング」は有力な前処理:クラスタが絡み合ったり不要次元が多いときに、分離性と計算効率を上げやすい。後続の研究やサーベイもこの方針を支持。(SpringerLink) ただし2次元可視化用の埋め込みにそのままクラスタリングするのは慎重に。UMAP作者側ドキュメントも「議論はある」と注意喚起。クラスタ目的なら 2Dに限らず10~50次元程度で埋め、そこでHDBSCAN等を回すのが推奨。(umap-learn.readthedocs.io) ハイパラの目安:
n_neighbors は局所/大域のトレードオフ(小さくすると局所、クラスタ寄り)。
テキストなど他領域:文書クラスタリングの実験では、UMAPで15次元以上に落としてからクラスタリングすると安定、チューニングの影響は限定的という報告も。(ACLアントロジー) 限界・注意
必要なら、この論文の数値をもう少し整理して「どのアルゴリズム×データで何が効いたか」を表にして出します。
nishio.icon
と思ってたら2次元にUMAPしてからクラスタリングするのは精度が下がるという研究もあった
つまり画像系データセットのデータが低次元の多様体の周辺に分布していることによって次元削減のデメリットを受けにくかったのだろう