An Image is Worth a Thousand Terms? Analysis of Visual E-Commerce Search
論文情報
eBay Research の人々
A picture is worth a thousand words に掛けたおしゃれな論文タイトル
選んだ理由
タイトルに何となくおしゃれな雰囲気を感じたから
1. どんなもの?
eコマースにおける画像検索 (Visual search) の包括的な研究を行った
モバイル検索アプリケーションのクエリログの分析(eBayのモバイルアプリ)を行って、画像検索とテキスト検索の比較・画像検索クエリの特性や属性による絞り込み・画像検索クエリのパフォーマンス予測について検証した
分析の結果、eコマースにおける画像検索とテキスト検索で様々な違いがあることが分かった
2. 先行研究と比べてどこがすごいの?
先行研究
画像検索は画像を入力クエリとして関連性に基づいてランク付けされた検索結果のリストを返却する
近年、画像検索は様々な領域で実装・研究されてきた
画像検索はテキスト検索に比べて 1. 直感的である点、2. 言語に依存しない点、3. サイトで使われてる用語を知っている必要がない点 において利点がある。また、ユーザー側からの画像検索への要望が大きくなってきていることを示す複数の調査結果がある。
多くの企業で実際にアプリケーションに画像検索が導入されている一方、研究についてはE2Eなシステムアーキテクチャやランキングモデルの評価に関するものが大部分で、画像検索の利用に関する包括的な分析に関する研究はなされてこなかった(著者らの知る限り)
貢献
eコマース領域の画像検索ログの包括的かつ詳細な分析をはじめて行った
クエリ、セッション、検索結果、属性情報、クリックの分析を組み合わせて画像検索とテキスト検索の共通点と相違点を浮き彫りにした
画像検索がテキスト検索に比べてより具体的であるという明確な証左であることを示した
画像検索のためのクエリパフォーマンスの一連の予測器を評価し、テキスト検索の予測器と比較した
3. 技術や手法の"キモ"はどこにある?
基本的な特徴
画像検索とテキスト検索では年齢や場所による違いは見られなかったが、性別では女性の方が画像検索を高い割合で利用していることが分かった。
曜日の分布は似ていた(ともに週末に検索が多くなる傾向)が、一日の中では画像検索は日中にピークが来る一方 テキスト検索は夕方以降にピークが来る傾向にあった。
https://gyazo.com/1341d13440dc29525463f6b1fa600660
画像検索の方がテキスト検索よりもセッションが長くなる傾向にあり、また1クエリのセッションの割合も低かった。クエリ数を揃えても セッション時間は画像検索の方が長かった。一方で、アイドリング時間も画像検索の方が長かった。
https://gyazo.com/a3bc60e47f92c82eabe44b10cde70fdc
クエリ
画像検索は撮影した写真と写真フォルダのアップロードの2種類ある(下図だと1,5,6,7,8が前者)
https://gyazo.com/aab650d4621949a9acfe5ab70f388891
使用したデータの80%が撮影した写真(Camera)、20%が写真フォルダ(Galllery)だったが、これはカテゴリーごとに異なる(メディアや芸術作品は Camera 、ファッションや宝石などは Galllery が多い)。
縦横比では縦長の写真が多いのは Camera の方である。
明度では Gallery の方が全体的に明るい。Gallery は Camera とプロ写真(Fashion)の間くらいなので、写真フォルダにはユーザー撮影の写真とプロ写真が混在していることが示唆される。
https://gyazo.com/d19af0484cc25ee06f93f62eff7efc71
画像の品質では写真フォルダのほうが比較的高いスコアを獲得していた。
検索結果(SERP)
以下の分析では null return な検索結果は除いている(画像検索は1.31%, テキスト検索は0.80%含まれていて、画像検索の場合は明度や品質が低かったりした)
画像検索の方がテキスト検索に比べて検索結果数は少ない傾向にあった。
LRV(Last result viewed: ユーザーがどれだけスクロールしたかを表す)は画像検索とテキスト検索で大きな差はなかった。
画像検索の方がテキスト検索に比べて検索結果に表示されるカテゴリの数は少ない傾向にある。
https://gyazo.com/6d5bdc4714ecd2b387ecdf8c4f76aedd
また、テキスト検索で検索テキストのクエリ長を伸ばすとカテゴリ数は減ったが、どんなにクエリ長を伸ばしても画像クエリの方よりもカテゴリ数は多くなってしまう。
https://gyazo.com/1b0ca48693a6acfcbe54172266d792e4
検索結果に従って 各クエリに「支配的なカテゴリ」を割り振ったところ、画像クエリの方がテキストクエリよりも分布がずっと広がっていた。実際 KL情報量 を使って調べて その値が大きいカテゴリを表3に示した。
https://gyazo.com/e21b910f907f5046d8dd6ca8c0185f10
画像検索がよく使われるのは上記のようなもので、多くの画像検索研究で主題となってきたファッションカテゴリはテキスト検索に比べて人気がないことが分かる。
検索結果の画像の品質は画像検索とテキスト検索で違いはなかった。
属性情報によるクエリの絞り込み
検索結果を絞り込むための属性情報(ファッションカテゴリで色やサイズやブランドなど)の使用はかなり少数ではあるが、検索での情報ニーズを理解するのに役立つ
検索結果を絞り込むための属性情報の利用はテキスト検索より画像検索の方が少ない。画像クエリのほうがより絞られた情報を持っていることが示唆される。
テキストクエリ長と絞り込みの関係について調べると、クエリ長が長くなるほど属性情報の絞り込みの使用が少なくなる。画像クエリの絞り込みの使用率が8語のテキストクエリでの絞り込みの使用率より小さいことから、画像検索は少なくとも8語のテキストクエリの「価値」があると言えるかもしれない。
https://gyazo.com/ccc74227791a17999b34103874f04cc7
クリック
セッションレベルでは画像検索の方がテキスト検索に比べてCTRは低い。クエリレベルでもCTR、クリック数ともに画像検索の方が小さい。一方、MRR は画像検索の方が大きく これはクリックがより上位で発生していることを示している。上記のことより、画像検索はしばしば目的のものを探すのに使われることが考えられる(また、ランキングアルゴリズムにまだまだ改善の余地があることが分かる)。
https://gyazo.com/05685eeb2aaafc25c534907b5c3d0f3a
同じ購入意図を反映していると思われる画像クエリとテキストクエリの例を表7に示した。いくつかの例(2, 4)では 購入アイテムは明らかに画像クエリと異なるもので 目的のものを探す以上に意思決定や探索の意図があると思われる。
https://gyazo.com/1b61044896b8392721a1cc6509e416d0
クエリパフォーマンスの予測器
4. どうやって有効だと検証した?
実験設定
25万のユニークユーザーの150万以上の画像クエリをランダムサンプリングしたものをデータとして使用
比較として同期間に収集された同数のテキスト検索クエリを利用
ログの各クエリにはタイムスタンプや検索結果の情報(ランク・URL)やクリック・購入の情報、検索後の絞り込みの属性が含まれている
5. 議論はあるか?
まとめ
クエリカテゴリー
eコマースの画像検索に関する既存研究の多くはファッションカテゴリーにフォーカスしているが、特にコレクターズアイテム・ビンテージ・アート・おもちゃ用品・ベビー用品などでは、テキスト検索と比較して人気があることが分かった。これらのカテゴリーは言葉で表現するのは難しいが 視覚的に捉えることが出来る情報ニーズの側面を共有していることが多い。
このように画像とテキストでは クエリのカテゴリーや特性の違いによって、クエリの分類に基づいて構築された検索ツール(検索前のカテゴリ識別、スポンサー付きやプロモーション付きの検索結果、クエリの拡張、さらには結果のランキングなど)は画像検索で使用する場合に適用される必要があると考えられる。
検索の幅広さ
画像検索はテキスト検索よりもずっと具体的であるが、検索結果の数やカテゴリの幅、属性による絞り込みの使用が少ないことに反映されている。画像クエリはテキストクエリに比べて目的にアイテムに関するより多くの情報を伝えることが出来る。
画像クエリは 名前と実態の曖昧さの問題を解消するが、同時に暗い色と黒の区別や素材の種類の区別などの新たな課題がもたらされる。画像検索では ユーザーがクエリを絞り込むために提示する属性の選択はテキスト検索と異なり、画像では表現しづらい側面に焦点を当てるべきである。さらに、検索インターフェイスは画像とテキストを組み合わせるためのサポートを提供するように進化すべきである。
ユーザーの意図
画像検索では特定のアイテムを探す目的と視覚的に類似したアイテムを発見する目的があるが、検索時にそれらを区別する明白な方法がないことが示唆された。したがって、画像検索インターフェイスでは ユーザが画像検索クエリを入力する際に「同一のアイテム」を探しているのか「似たような外観」を探しているのかを明示的に示す手段を提供することで、ユーザーの意図をより適切に把握して配信に利用できる。
クエリのパフォーマンス
CTRやクリック数が少ない一方で、画像検索のMRRが高く セッションが長いことから、画像検索にはまだ改善の余地があることが示唆される。
展望
eコマースにおける画像検索には実装にも研究にも改善の余地が多い。
カメラとギャラリーの画像だけでなく、外部のコンテキスト(e.g. SNSのフィード内画像)から画像検索を起動する方法の検討も必要かもしれない。
画像検索と音声検索には共通点があることもわかっていて、これらの統合はタイピングを必要としないeコマース検索のよりよい体験を提供する手段になりうるので研究に値する領域である。
6. 所感
画像検索における多角的な分析に加えて、分析結果から示唆されることが一つ一つ書かれていたり、そこから考えられるサービスの改善の方向性の提示まで含めて行われていたのが 非常に興味深かった。
ref.