検索を組み合わせる
https://gyazo.com/763fb9ae8f7e017772460b9ef471e515
検索を組み合わせる話
DPRが雑に言えばベクトル検索で、BM25とは雑に言えば「モダンなTF-IDF」 ベクトル検索が低頻度語に弱い(=固有名詞、専門用語や製品名に弱い)から、普通の検索を組み合わせる
BM25: 語彙一致ベース
意味的な類似性に強い
低頻度語を見逃す / 分布外(OOD)での性能劣化が著しい
DPR, BM25 の両者の検索結果のオーバーラップは極めて小さい
→両者のいいとこ取り
上位 100 件程度
情報検索周りの論文を調査していくと、この文脈での研究がいくつか見つかり、BERT ベースで分類器を構築するよりも、seq-to-seq ベースのものの方が精度が高い