Bonsai
このドキュメントの信頼性について(2025-05-11時点)
私文文系非エンジニアのhealthy-sato.iconが DeepResearchとDeepLで雑に機械翻訳して、議論の材料・たたき台を作る目的で調査・まとめています。
文脈を理解できない素人が書いているため、内容に誤りが多分に含まれている可能性があります。
healthy-sato.iconにはこれ以上噛み砕いた表現は不可能なので、ここから先の加筆修正はこの領域に少しでも知見がある方のお力をお借りしたいです!気になる点は大胆に加筆修正いただけると嬉しいです🙏
https://bonsai.unibas.ch/bonsai/
https://github.com/dhdegroot/Bonsai-data-representation
Bonsaiの特徴
(deepL機械翻訳)
UMAPやt-SNEのような手法は、その場しのぎで、確率的で、解釈不可能であり、データの構造を大きく歪めることが知られているため、満足できるものではない。ここでは、データを木構造で表現することでこれらの課題を克服できることを示し、異種測定ノイズを厳密に考慮しながら、任意の高次元オブジェクト集合に関連する最も可能性の高い木を再構成する新しい手法であるBonsaiを紹介する。他の可視化手法とは対照的に、Bonsaiの木に沿った距離は、多くの種類のデータセットにおいて、高次元空間におけるオブジェクト間の真の距離を正確に表していることを示す。さらに、Bonsaiは測定ノイズを自動的に正則化する。
(原文)
such as UMAP and t-SNE are unsatisfactory because they are ad hoc, stochastic, uninterpretable, and known to severely distort the structure in the data. Here we show that these challenges can be overcome by representing the data on tree structures and present Bonsai: a novel method that reconstructs the most likely tree relating any set of high-dimensional objects while rigorously accounting for heterogeneous measurement noise. We show that, in contrast to other visualization methods, distances along the Bonsai trees accurately represent true distances between the objects in high-dimensional space across many types of datasets. Moreover, Bonsai automatically regularizes measurement noise
https://sciencecast.org/casts/nkebdi3gc8yj
o3.icon
Bonsaiは確率モデルに基づいており再現性のある結果を返す(ランダム初期化やパラメータ調整に依存しない)ため、学生の実習などでも毎回同じ可視化結果を得て議論できる利点があります…(中略)さらにパラメータ調整不要という特性は、初心者が試行錯誤する手間を省き、データそのものの特徴に集中できる利点があります。
https://chatgpt.com/share/682045e9-8a2c-8002-8281-a7d1963bc467
※強調筆者healthy-sato.icon
BonsaiとBonsai-scoutの関係性
Bonsai = “計算エンジン”
多次元データ → 誤差モデル込みの最尤ツリー
Bonsai-scout = “探索ダッシュボード”
Bonsai のツリーを読み込み、レイアウト切替・解析 UI を提供
研究者/非エンジニアが ノーコード でクラスタリングやマーカー抽出を試せる
両者は 同一リポジトリ・一方向データフローで緊密に結合しつつ、計算コストと操作性を分離している──これが Bonsai 生态系の核心です。
出典:o3.iconhttps://chatgpt.com/share/682045e9-8a2c-8002-8281-a7d1963bc467
設計思想 … 計算エンジンと UI を分離して依存を最小化する
(deepL機械翻訳)
必要なパッケージのインストール
まず、必要なパッケージがインストールされていることを確認します。 Bonsai-reconstructionよりも必要なパッケージがいくつかあり、Bonsai-dependenciesをできるだけ少なくしたかったので、Bonsai-scout用に新しいconda環境を作成しました。 (以前この環境を作った場合は、conda activate bonsai_scoutで簡単に切り替えることができます)。
(原文)
Installing the required packages
First, make sure that you have the required packages installed. Since, we need a few packages more than for the Bonsai-reconstruction and we wanted to keep the Bonsai-dependencies as lean as possible, we created a new conda environment for Bonsai-scout. (If you created this environment before, you can easily switch with conda activate bonsai_scout).
出典:Bonsai-data-representation Bonsai-scout: Visualizing the Bonsai results Installing the required packages
https://github.com/dhdegroot/Bonsai-data-representation#:~:text=First%2C%20make%20sure,activate%20bonsai_scout).
BonsaiとUMAPの関係性 (wip 誰か書いてくれると嬉しいhealthy-sato.icon)
従来の非線形可視化(t-SNEやUMAP)とTMAPの最大の違いは、低次元埋め込みを直接学習せず、代わりにMSTによる構造表現を行う点……(中略)……また可視化の情報表現にも違いがあります。UMAPはクラスターを極力分離し点の塊(パッチ)として描写しますが、TMAPはクラスター内部やクラスタ間の関係まで枝として描写します。
https://chatgpt.com/share/68205fef-f5b4-8002-a5c8-a59625a7d692
※太字筆者healthy-sato.icon