This Is Not What We Ordered: Exploring Why Biased Search Result Rankings Affect User Attitudes on Debated Topics
https://gyazo.com/07c375f2e82e135c36cb391c5027a5b5
選んだ理由
議論トピックに対するユーザ態度が「ランキング・バイアスによる検索結果」によって態度変容を起こすかという調査内容は単純に面白いなと思ったから。
あるトピックに関する記事を配信した時に、そのトピックについて曖昧な態度をとるユーザは多少なりとも影響を受けると、という内容は、発信者側として心得ておく必要があると思ったから。
背景
1. 議論のあるトピック(議論トピック)は「異なる立場(視点)」を持つユーザが存在する
議論トピックについて、意見を求められた場合、しっかりとした情報に基づいて意見を構築しようとします。
例えば、「動物園は存在すべきか?」というトピックについて意見を求められた状況で、あなたは動物園に対して穏やかな(つまり、不確かな)態度をとっていたとします。
あなたは、このトピックに関する「異なる見解」に触れるために、ウェブ検索エンジンに「動物園は存在すべきか?」という質問を入力します。
2. ウェブ検索において、ユーザの情報行動に対する現象と検索側のバイアスがある
大事なのは、議論トピック(ex. 動物園は存在すべきか?)のウェブ検索では、このようなバイアスがユーザの情報消費に影響するということ!
ユーザの情報行動に対する現象
ポジション・バイアス(現象)
ユーザは、検索結果(ランク付けされたリスト)を消費する際に、一般的に上位のアイテムに対し、より多くの注意を払うことが知られている
ユーザは、順位の高いWeb文書を高い確率でクリックし、主に検索結果の「最初のページ」に関与することになる。
検索側の(アルゴリズムによる)バイアス
ランキング・バイアス
特定の立場の文書が他の文書よりも上位にランキング付けされる
Tips: 確証バイアス
たとえば… 会う前から嫌なヤツだとは聞いていたが、会ってみたら本当に嫌なヤツだった。
池田まさみ・森津太子・高比良美詠子・宮本康司 (2020). 錯思コレクション100
3. トピックに対する「態度変容」には検索結果が影響する
最近の研究では、検索結果のランキングが特定の視点に偏っていると(つまり、その視点より言及する文書に高いランクが割り当てられていると)、ユーザはそれに応じて態度を変える傾向があることが示された。
このような、偏った順位の検索結果リストを見たことによる態度変化は、検索エンジン操作効果(SEME)と呼ばれている[15]。
4. なぜ、ユーザはSEMEを引き起こすのか?
SEMEを引き起こすユーザの情報消費には、接触効果(exposure effects)と順序効果(order effects)という、2つの異なる認知バイアスが関与していると考えられている[6]。
接触効果とは?
特定の視点によるメッセージが繰り返し呈示されると、次第にその視点に対する個人の好意が高まること[6, 38, 66]。
ウェブ検索の文脈では、ユーザが特定の視点を採用する傾向は、その視点によるメッセージを含んだ、Web文書の割合に応じて増加することを表している。
順序効果とは?
ユーザが上位の検索結果から得られた情報をより重視すること[6]。
これは、ある文書での視点の影響が、その文書の順位によって重み付けされることを意味する。
5. SEMEの原因を調べた研究では、2つのバイアスが浮上したが....
しかしながら、SEME の原因が、接触効果、順序効果、あるいはその両方にあるかについては、実証的な証拠がないのが現状である。
既存研究では、SERPの最初に表示された文書の中で多数の視点を持つ検索結果リストを用いて、SEMEが実証されており[3, 15, 47, 60]、「接触効果と順序効果の両方」がもっともらしい説明となっている。
例えば、あるユーザに対し「動物園は存在すべきか?」に関する検索結果の画面に、動物園を支持する8つの文書と動物園に反対する2つの文書が表示されたとする。ユーザーがこの最初の10件の検索結果のみに関与したと仮定すると、消費した検索結果の中で動物園を支持する文書が多数を占め(接触効果)、文書の順位も高かった(順序効果)ため、ユーザは動物園に好意的な態度に変わるとされている。
最近の研究では,ユーザはウェブ検索の際に多数派の視点を求めているが,順序効果には気づいていない可能性が指摘されている[19].
しかし、人間は自分のバイアスに気づかないことが多く[50]、どのような認知プロセスが、SEMEに真に寄与しているのかは現在のところ不明である。
研究内容
研究目的と調査内容
本研究では、SEMEのメカニズムを理解するために、5トピック × 3バイアスレベルのユーザ調査を行い、順序効果(上位文書に関連する視点をユーザーが採用すること)がSEMEを引き起こすかを調査した。
5つの異なる議論トピックについて、「全体的にトピックの立場(視点)のバランスがとれた検索結果のトップ10」を「3段階のランキング・バイアスで反映させたもの」を、既存の態度が不確かな参加者に提示して、態度の変化を評価した。
https://gyazo.com/2b3150bfa16932bef33c5d953197b76a
既存研究とは異なり、反対意見と支持意見の文書が同じ割合で含まれた検索結果をユーザに見せることで「潜在的な接触効果」を緩和し、潜在的な順序効果と分離している。
また、どのようなユーザがSEMEの影響を受けやすいのかも調べた。
予備調査
多くの人がどちらともいえない,あるいは不確かな視点を持っていると思われる議論トピックを特定した
(不確かな視点を持つユーザーを対象としたため)
議論のある問題を掲載しているサイト「ProCon」から18種類のトピックを選択 [48] 。
18個の議論トピックに関して、参加者は「強く賛成」から「強く反対」までの7段階のリッカート尺度により自身の態度を表現することができるアンケートを作成した。
各トピックの質問形式:「動物園は存在すべきか?」
参加者と報酬: Prolificというサイト [49]から募集し、100人の参加者に0.60ドルの報酬を与えた
次に、一方の態度に偏っていない議論トピック(5つ)を選択した。
Wilcoxon検定で有意でないトピック
アンケートの回答を$ -3(強く反対)から$ +3(強く賛成)までの整数に変換し、各トピックの検定値を$ 0として、Wilcoxon検定を行い評価したらしい。
この検定で、有意な結果が得られれば、そのトピックに関する平均的な態度が未定ではない(つまり0にはならない)ということになる。
今回は、その逆で「有意でない結果が出たトピックのみ」を対象とした。
大多数の人が不確かな態度をとるトピック
リッカート尺度の中心となる3つの選択肢(「ややそう思わない」から「ややそう思う」まで)の回答をマイルドクラスに、それ以外の回答をストロングクラスに分類した。
そして、マイルドクラスの割合が0.5以上であるトピックを対象とした。
5つの議論トピック
(1) ソーシャル・ネットワーキング・サイトは社会にとって良いものか?
(2) 動物園は存在すべきか?
(3) 携帯電話の放射線は安全か?
(4) ペットボトルの水は禁止されるべきか?
(5) 肥満は病気なのか?
5つの議論トピックに対する検索結果のアノテーション
(1) トピック毎にあらかじめ用意したテンプレートに沿って、14個のクエリを作成した。
このテンプレートには、中立的な形式のクエリ(ex. "zoos opinions", "zoos arguments")と偏った視点のクエリ(ex. "ofions supporting zoos", "argument opposing zoos")が含まれている。
(2) 検索エンジンBingのAPIを用いて、これらの検索結果の上位50件を取得した。
アノテーションとしては、関連性(2値)とトピックに関する視点(「強く反対」から「強く支持」までの7段階のリッカート尺度)について,1つのアイテムにつき3つ以上集めた。
クラウドワーカーへの報酬
14種類の検索結果にアノテーションをつけるタスクごとに2ドル
さらに、2回のチェックに合格すると、0.50ドルのボーナスが支払われた。
少なくとも1回のチェックに合格しなかった参加者のデータは分析から除外した。
検索結果の各項目には、これらの測定値の中央値のアノテーションを付与した。
(3) 最終的なデータセットは、280個の検索結果アイテム(名前、スニペット、URLを含む)で構成された。
5つの議論トピックに関する関連性と視点がアノテーションされている。
態度調査の手順
オンラインタスクプラットフォーム Qualtrics[52]を用いた。
(ステップ1)
参加者は、課題についての簡単な設定を受けた後、性別、年齢、5つの議論トピックそれぞれに対する態度を示した。
(ステップ2)
参加者は、自分がどのトピックに割り当てられたかを知り、14種類のクエリから1つを選んでウェブ検索を行うよう指示された。
(ステップ3)
参加者は、3つの条件(ランキング・バイアス)のいずれかに無作為に割り当てられ、検索結果のリストが提示された。
このリストには、割り当てられたトピックに関連する検索結果アイテムが含まれている。
例えば、「動物園は存在すべきか?」というトピックを与えられた参加者が、「極端な偏見」という条件を与えられた場合、その参加者は、動物園を支持する全ての文書が、動物園に反対する全ての文書よりも上位にある(またはその逆)検索結果リストを見ることになる。
ページの下には「もっと見る」というボタンがあり、参加者はそれをクリックしても、それ以上の検索結果は得られないが、もし検索結果があれば、さらに検索したかもしれない参加者の数を調べることができるようにした。
参加者は,検索結果の名前やスニペットを読んだり,最も興味深いと思ったウェブページを直接見たりして,検索結果を探索することができた。
参加者は,検索結果の探索に少なくとも2分間を費やさなければならない。
(ステップ4)
参加者は、指定されたトピックに関する自分の(事後)態度と興味を述べた。
(ステップ5)
参加者は、AOT尺度、UES-SF、知覚的多様性尺度で構成される事後質問票に記入した。
詳しい内容は見れていません。
リサーチクエスチョン
(RQ1) 全体的には視点のバランスがとれた検索結果のランキング上位10件が、既存態度が不確かなユーザの議論トピックに対する「態度変容」に影響するか? 🟠
ほとんどのユーザは、検索結果を見たことで態度を変えた。
しかし、検索結果の順位の違いによる態度の変化は見られず、順序効果は見られなかった。
→ ランキング・バイアスのレベル間に有意な差はなかった
(RQ2) 積極的なオープンマインド思考やユーザエンゲージメントなどのユーザ個人の特性は、態度変容に影響するか? ❎
これらが態度変化に影響を与えているという証拠は得られなかった。
(RQ3) 積極的なオープンマインド思考、ユーザの関与、知覚された多様性などの要因は検索結果の順位と相互作用して態度変容を引き起こすか? ❎
これらが態度変化に影響を与えているという証拠は得られなかった。
(RQ4) ユーザは自分が見る検索結果の視点の多様性に気付いているのか? ❎
多様性の認知に対する条件の効果は有意ではなかった。
「ランキング・バイアスの違い」を認識していなかったことが示唆された
考察
探索的な分析では、接触効果が態度変容を寄与する可能性が示唆された。
(検索結果を消費する際、強い順序効果を示さないかもしれないが、接触効果が態度変容に寄与するかも)
探索的分析では、検索結果を見ることによる接触効果が、態度変容を引き起こす可能性として示唆された。
ある視点に関連する検索結果を多く消費するほど、その視点を採用する傾向にあるということ。
この結果から、ユーザは検索結果に対して確証バイアスを持たず、ポジション・バイアスにより文書を選択していることが示唆された(上位の検索結果を消費する傾向が強い)。
この選択によって、ある特定の視点に関連する文書をより多く利用するようになり、それが態度の変化につながったと考えられる。
なぜ、ランキング・バイアスのレベルによって異なる態度変容にならなかったのか?
この研究で行った検索結果の操作(全体的には視点のバランスが取れているがランキングに偏りのあるSERPを提示する)がSEMEの発生には弱すぎたことが考えられる。
先行研究だと、一方の視点が多数を占めるSERPをユーザに提示していた[3, 15, 47, 60]。
そのため、ほとんどのユーザは「ある特定の視点の文書」を多く消費することになり、より信頼性の高い接触効果を得ることができた。
ウェブ検索において、SEMEは複雑な問題であり、2つの影響を理解する必要があることを明らかにした。
(1) ユーザが議論トピックを検索した際に、どの文書を選択するか
https://gyazo.com/f2a089b3e08e1c638aca700fa992ab81
(2) 選択文書がユーザにどのような影響を与えるか
https://gyazo.com/163b74c4ba2306496a850dcc626c0657
注意点・今後の課題
注意点
態度変化が生じた時点を推測することはできない
態度変容は2回(ユーザが検索結果を見る前と後)しか測定していない
ユーザが選択した文書の順序に関するデータは収集していない
確証バイアスによる影響が確認できていない
検索の初期や後期など、より微妙なレベルでユーザに影響を与えているかどうかも不明。
今後の課題
議論トピックのウェブ検索における接触効果の詳細な調査
特に、ランキング・バイアスとの関係
所感
Web検索のバイアス研究では、「検索側のバイアス」と「ユーザの情報消費に関するバイアス」の両方を扱う必要があることを学んだ。
記事の分類を関連性(2値)に基づいて識別するのは一般的だが、トピックに関する視点(Ex. 7段階)で区別するのは珍しいと感じた。
例えば、自民党総裁選というトピックに関する記事を配信した時、特定の立候補者に偏った内容が散見されるとすると、その記事には強く否定といったラベルを振り分ける事でユーザに与える影響を緩和することができるかもしれない。