DeepBrowse: Similarity-based Browsing through Large Lists (Extended Abstract)
論文リンク
概要
目的は莫大な(数十万件以上の)文書集合を対象に文書の重要度(significance)と文書同士の類似度を両立してブラウジングすること
その際にできる限りドメインナレッジを使わないでモデルを構築したい
この論文では文書間の類似度にDeepWalkを適用し文書全体をリスト化し、予め定義した重要度によって文書をフィルタすることで効率的なブラウジングを可能にしている
インタフェースの概要
https://gyazo.com/6f92110f530c6b1fe6bd49981fb14724
上部にあるSliderを移動させると重要度のフィルタを調整できる
表示されているアイテムの周囲はそのアイテムとできるだけ似たようなものが配置されている
グラフでみると隣接したものが表示されやすいのだと思うytanaka.icon
ポイント
DeepWalkを使うとグラフ構造をEmbeddingし各アイテム同士の類似度を求めることができる
重要度はWikipediaならPageRank、IMDBなら投票数、単語ならTFIDFを使う
リストの構築法
各アイテム同士の類似度ができるだけ小さくなるように並べていく
この問題はTSP(巡回セールスマン問題)となる
リストの表示部分は一部なので、できるだけ注目している頂点の周辺の類似度を少なくするような工夫が必要
k-robust TSPという手法を提案している
kはコストを考慮する隣接頂点の数を示す(一般的な巡回セールスマン問題はk=1)