検索を組み合わせる
AI王 〜クイズAI日本一決定戦〜 に参加し第3位入賞した話|PKSHA Delta 2023-01-04
https://gyazo.com/763fb9ae8f7e017772460b9ef471e515
検索を組み合わせる話
DPRとBM25を組み合わせてる
DPRが雑に言えばベクトル検索で、BM25とは雑に言えば「モダンなTF-IDF」
ベクトル検索が低頻度語に弱い(=固有名詞、専門用語や製品名に弱い)から、普通の検索を組み合わせる
BM25: 語彙一致ベース
Dense Passage Retriever (DPR)...事前学習モデルを利用した密なベクトルベース
意味的な類似性に強い
低頻度語を見逃す / 分布外(OOD)での性能劣化が著しい
DPR, BM25 の両者の検索結果のオーバーラップは極めて小さい
→両者のいいとこ取り
全チームが Retriever-Reader 型
Fusion in Decoderを Reader として採用
上位 100 件程度
情報検索周りの論文を調査していくと、この文脈での研究がいくつか見つかり、BERT ベースで分類器を構築するよりも、seq-to-seq ベースのものの方が精度が高い
Rerankerを学習した(リランク)
PKSHA
LLM
AI王
クイズAI