BERTで区分け
文章をBERTでベクトルに変換する
ベクトルの各要素について正であるか負であるかで1bitの情報にする
なるべく半々に分かれる順に要素を選んでいく
CART的発想
分解がGini係数をなるべく減らさないように要素を選ぶ
CART - 機械学習の「朱鷺の杜Wiki」
#CART
#決定木
今回はN=4000ぐらいなので、12bit選べば1バケットあたり1個になる
関連:
局所性鋭敏型ハッシュ - Wikipedia
#LSH
16進法表記で3文字の「カテゴリーコード」になる
kMeans
でやる手もある
#k平均法
代表点の位置を取っておく必要がある
面倒なのでとりあえず先頭12次元で試す