日記2025-10-12
テキスト埋め込みの高次元空間における処理を考える
細粒度のクラスタリング
ローカルな距離なグローバルな距離より意味がある
100枚ランダム抽出してKJ法
embeddingで二次元配置したものと比較
同じであるなら自動化できる
違いがあるならそれは何か興味深い
100枚のデータに対してembeddingの距離ベースではなく賢いLLMに関係抽出をさせる
これを人間がやったものと比較したい
観察の方法をまず作る必要がある
Kozanebaをいじるか
k=100のk-meansを使うとどうなるか
ほとんどの人はリソースが1未満
「リソースが1未満」がある程度来ても平均が1を超えていれば耐えられる
じわじわと無自覚テイカーが増えていって平均が1を下回った段階で生産的ではなくなる これも同じことだね
TODO
週記の切り替え✅
チームみらいデータセット、アナウンス✅
明日すること
今は頂点にはシンプルなテキスト、辺にはテキストなしの状況