発話内容を用いたクエリ拡張による過去会話ログの検索
書誌情報
会議名:DEIM 2023
著者名:田貝奈央 加藤誠
所属:筑波大学
何をしているか
現在の発話に関連した過去の発話の検索と提示をするシステムの提案
(関係のある過去データを参照しながら、会話をしたい!の気持ち)
実際の研究手法
Youtubeの動画を使ったデータセットの作成
予測発話文を使ったクエリ拡張
実験と性能評価
メモ
リアルタイムに話して情報を提示するということはしていない。データセット内の文書を使い、会話していると仮定して実験。
提案手法の概要
https://scrapbox.io/files/66dc4318aaddc1001d2aca01.png
①予測発話文を用いたクエリ拡張
現在までの発話(今の発話+文脈の発話)から、次に発話されそうなことを予測し、生成。単語を抽出し、これを付け足してクエリ拡張。
何がいいのか:次の発話に関連する情報が得られれば、より実用的。
②ランキング
BM25を使い、ヒットした過去発話文とクエリの関連度を算出。スコアを基にランキング。
工夫点
予測発話文を作ってクエリ拡張をしている点
実験用データセット作成
YouYubeチャンネル:ゆる言語学ラジオ
Azure Speech to Textで書き起こし
実験
提案手法の有効性確認
提案手法:拡張済みクエリ (現在までの発話+予測発話文)
比較手法:拡張に用いるクエリ (予測発話文)
ベースライン:拡張前クエリ (現在までの発話)
ランキング上位k件内の文書で検索精度評価 (nDCG@k)
https://scrapbox.io/files/66dc4841b107ac001d1946d8.png
ベースラインに対して、提案手法は有意性無し、比較手法に有意性あり
文脈を入れるより、単に次に話す言葉で検索した方がそりゃちゃんと検索できるわな
適切な予測発話文生成数の確認
https://scrapbox.io/files/66dc492d697227001cb41933.png
15件が最も精度高い
提案手法が比較手法を超えることはやはりない
生成数を増やしすぎても意味ない
感想
データセットを作っている論文は初めてだったので参考になった。しかし、選んだ動画は著者の趣味では?と思った
予測発話文を生成して、拡張に用いるというアイデアは面白かった
情報検索分野では、ランキングが大事と勉強になった
有名なランク付け手法 (BM25/nDCG)が出てきて良い機会だった