The spread of true and false news online
Vosoughi et al. (2018)
要するに?(何をどうやって検証したのかを短く)
Twitter上で拡散された正しい情報のニュース記事と虚偽情報のニュース記事を調査した
対象のツイートは2009年から2017年のツイート
調査の結果、正しい情報よりも虚偽情報のほうが有意に速く、広く拡散された。
発信ユーザから末端のユーザまでの深さも有意に深い
特に虚偽の政治ニュースではその度合が顕著だった
虚偽情報のニュースのリプ欄は、恐れや嫌悪感や驚きが表明されているのに対して、正しい情報のニュースでは、期待や悲しみ、喜び、信頼が表現されていた
従来は虚偽情報の拡散はbotによっておこなわれていると考えられていたが、この調査の結果により人間のほうが虚偽情報を拡散させやすいことが示唆されている
これは虚偽情報が正しい情報よりも目新しく、人間は目新しい情報をシェアする傾向があるからだと考えられている
人間は目新しい情報をシェアする傾向については、仮説として情報理論やベイズ意思決定理論などを引用している
これまでの研究と異なる点は
虚偽情報と事実情報の拡散の違いについてトピックを横断して包括的に評価をしたこと
なぜ虚偽情報が事実情報よりも拡散されるのかについて検証したこと
技術・手法・アイデアなどで、すごいと思った点
先行研究の手法を用いているだけだがStructural Virality (Goel et al. (2016)) = 構造的バイラル性という指標を用いて、拡散されやすさについて言及していることが強い気がしている
Claude3に解説させた
情報が単一の大規模なブロードキャストを通じて拡散する場合と、多段階にわたって拡散する場合の間を補間する指標
具体的には、以下のように計算されます。
情報の拡散を表すシェアツリー(情報がシェアされるたびに枝分かれしていくツリー構造)を考える。
このツリーにおいて、ある個人が情報を直接シェアした人の数(つまり、その個人からツリーの葉に至るまでの最短経路の長さ)を、その個人の「シェア深度」と呼ぶ。
構造的バイラル性は、このシェア深度の平均値として定義される。
例えば、ある情報が1人のインフルエンサーから100人のフォロワーに一斉にシェアされた場合、シェア深度は1であり、構造的バイラル性は低いことになります。一方、ある情報が多段階にわたってシェアされ、最終的に100人に到達した場合、シェア深度は1より大きくなり、構造的バイラル性は高いことになります。
つまり、構造的バイラル性が高いほど、情報が多段階にわたって個人間で拡散していることを示しており、単なる大規模なブロードキャストではなく、より「バイラル」な拡散が起こっていることを意味します。この指標は、情報の拡散パターンの特徴を定量化するのに役立ちます。
また、情報の拡散に情報カスケードという概念を持ち込んでいる
Claude3による解説
情報カスケードとは、ある情報や行動が、社会的ネットワークを通じて次々と伝播していく現象のことを指します。
具体的には、以下のようなプロセスを経て起こります:
1. ある個人が情報を発信したり、ある行動を取ったりする。
2. その個人と繋がっている他の個人が、その情報や行動を観察する。
3. 観察した個人の中には、その情報を信じたり、同じ行動を取ったりする人が出てくる。
4. そうして影響を受けた個人が、さらに自分と繋がっている他の個人に影響を与える。
5. このプロセスが次々と繰り返されることで、情報や行動が急速に拡散していく。
この現象は、オンラインソーシャルネットワークの発達によって、より頻繁に、より大規模に観察されるようになりました。情報カスケードは、真実の情報だけでなく、誤情報や虚偽の情報の拡散においても重要な役割を果たしています。
人々は自分の意思決定において、他者の行動から推論を行う傾向があるため、初期の段階で偶然多数派になった意見が、情報カスケードを通じて増幅され、社会全体に広がっていくこともあります。
この研究ではこの情報カスケードをあるユーザのRTを起点に計測していて、そこから連鎖したRTを深さとして、ある階層でどれだけRTされてるかを広さとしている
同じ噂にも複数のカスケードがありうるということでもある
情報の目新しさの確認は以下の手法
ユーザをサンプリング
LDAを使ってリツイートされた噂を分類
噂ツイートをリツイートする前のユーザがそれまでみてきたツイートから噂ツイートとの情報距離を計算する
This generated a probability distribution over the 200 topics for each tweet in our data set.
情報距離を噂ツイートのトピック分布の距離として定義
トピック分布のKLダイバージェンス
この論文の限界として感じたことがあれば(議論)
終盤でこの分析の頑健性をチェックしているが、サンプル数が多いわけではないため、その点に弱さがある可能性はある
特にファクトチェック機関によって検証されたツイートのみを対象としたことによる選択バイアスがある問題に対処するために、ランダムサンプリングした噂に対して学生にアノテーションをさせてデータを作り、それを分析する方法を取っているが、これで解決できているとはわからない
また、ボットのツイートを取り除くシステムを機械学習によっておこなっているため、これは本当にうまく取り除けているのか不明
他にも教師ありモデルでラベルを付与している項目があるが、それらのモデルの精度がどのようなものなのかは言及されていない
Twitter以外でも再現されるだろうか
Discussionで興味深い仮説や解釈があれば
人々はより目新しい情報をシェアする傾向があるという点が個人的には興味深い仮説であるなと思った
また、政治的なコンテンツの方が拡散されやすい(次点で都市伝説)傾向はどのような理由があるのだろうかというのはより深堀りしたいと思った...
この論文を読んでさらに知りたいと思ったこと
構造的バイラル性などの指標は他にどれくらいあるのだろうか
例えば、物語性的なものを測れれば面白いかなぁ
次に読むべき論文は?
The structural virality of online diffusion
Structural Viralityについて知るために