クラスベースTF-IDF
クラスベースTF-IDF
クラスベースTF-IDFは、BERTopicで提案された新しいトピック表現の手法です。
通常のTF-IDFは、各ドキュメントにおける単語の重要度を計算します。これに対し、クラスベースTF-IDFでは、トピックごとにドキュメントをまとめて擬似的に1つのドキュメントとみなし、そのドキュメントクラスにおける単語の重要度を計算します。
具体的には、以下のように計算されます。
Wt,c = tft,c · log(1 + A/tft)
tft,c : トピックcに含まれるドキュメントにおける単語tの出現頻度
A : コーパス中の単語の平均出現頻度
tft : 単語tのコーパス全体の出現頻度
通常のTF-IDFが各ドキュメントを独立に扱うのに対し、クラスベースTF-IDFではトピックごとにドキュメントをグループ化して扱う点が特徴です。これにより、トピックを特徴づける単語の重要度をより直接的に計算できます。
BERTopicでは、このクラスベースTF-IDFをトピック表現の生成に用いることで、従来のクラスタ中心ベースのトピック表現よりも優れた結果が得られたとしています。トピックの解釈性向上に寄与する手法と言えます。