On Twitter Purge: A Retrospective Analysis of Suspended Users
https://gyazo.com/062c488805e40994f0ec71609209c44c
なぜ読んだか
Twitterが好きだから
ユーザの特徴をどのようにして分析するのか気になったから
個人的に特徴量とかで使う機会があるかもしれなかったから(RecSys ChallengeとかKaggle)
概要
Twitterではスパム行為が問題視されており,ルールに違反したユーザを凍結(purge)させる処置をおこなっている.
これまでTwitterにおいて凍結されたユーザを対象とした研究がほとんど行われていなかった
凍結(アカウント停止)されたユーザの特徴の分析
作成日,location,Tweet数,follow数,bioなど
INTRODUCTION
2015年あたりまでは,スパム行為がSNSにおける主な悪用方法だと考えられていた
2016年のアメリカ大統領選挙で,虚偽の情報を広めるプラットフォームとして使用
これ以降,このときにまとめて凍結されたアカウントの特徴や,活動が研究されるようになった
しかし一般的に凍結されたユーザに対する研究は行われていない
凍結されたユーザ(Purged Users)は凍結されていないユーザ(Control Users)とは何が異なるのか.
凍結される前は何をしていたか
凍結されたユーザ間で交流(関係)はあったのか
アカウント停止措置の対象を特定することで実際どのようなユーザが凍結されたか内情を把握することができる
凍結されたアカウントの情報が公開されておらず,また簡単に収集する方法がない
凍結された後ではツイートなどは読み込めないので
分析の流れ
凍結されたユーザ(Purged Users)と凍結されていないユーザ(Control Users)の比較
凍結されたユーザのツイート内容など様々な分析
DATA COLLECTION FRAMEWORK
2つのフレームワークを開発
特定の時間内に凍結されたユーザを検出するもの
ユーザのツイートを1%だけサンプリングするもの
凍結されたユーザの検出方法(今回の実験データ)
フォロワーランキングTOP100のフォロワー情報を収集し,ユーザ集合を作成
2018/8/4と2018/9/11にユーザ集合のスナップショットを取得し,凍結されたユーザを識別
これにより,5億6000万人のユーザ集合から240万人の凍結されたユーザ集合を取得
Controlユーザ集合は凍結されていないユーザを無作為に約200万人サンプリングしたもの
https://gyazo.com/0a301db1f77d01ece7f4cbb4b2666bdc
前述したが,凍結されたユーザのツイートは読み込めない
2017/12/7〜2018/8/4(スナップショット開始日)の間に1900万人のユーザが行った9000万ツイートを収集
その中で凍結されたユーザの統計情報
https://gyazo.com/2ff5e536a8fe591cd0719a08f69c142e
ACCOUNT CHARACTERISTICS
凍結されたユーザ(Purged)とそうでないユーザ(Control)の比較
それぞれの月に作成されたアカウント数
https://gyazo.com/4ffdc4bfc0a0d30b8ce6530ae1691cfa
Controlでは分散してアカウントが作成されているが,Purgedではそうでない
Purgedユーザの60%は少なくとも2年以上前に作成されている
スパムアカウントに関する先行研究(2011, 2014年の論文)とは大きく異なる結果
スパムアカウントは直近に作られる(寿命が短い)
Twitterの悪用方法は新しく変わっている
凍結されたユーザの作成日とツイート数(status),フォロー数(friends)の関係
https://gyazo.com/d26c71c60be792cf797012674dbaaf7b
アカウント作成数が多い月はツイート数とフレンド数が低いことがわかる
2014年7月に作成されたアカウントのうち54,266アカウントがfollow 7,ツイートフォロワーいいねの数が0だった
アカウント名はロシア語で,数秒感覚で作成されていた.
凍結されたユーザとそうでないユーザのフォローフォロワー,ツイート数,いいね数の累積分布関数
https://gyazo.com/c7988a7c199510b0d3c37cc9f292f5d3
凍結されたユーザの15%はどのユーザもフォローしていない
そうでないユーザは1%程度
凍結されたユーザはそうでないユーザに比べてアクティブ
1000ツイート以上のユーザの割合
凍結: 約20%
not 凍結: 約10%
凍結されたユーザは他ユーザのツイートをいいねすることが多い
homophily(同じ価値観を持つ人とつながろうとする傾向)を利用するため
(関連付けられた言語,位置情報によって得られる)位置情報と各地域のユーザ数((設定したユーザに対してのみなので)今回のデータセット全体を反映しているわけではない)
https://gyazo.com/096b56e56b2378a65bd961df36b8860d
凍結されたユーザはアメリカ,ブラジル,トルコの順に多い
凍結されたユーザの90%以上を占める上位8言語のユーザ分布
https://gyazo.com/181280c88135ad699922e64c203fec88
ロシアがControl:Purge=1:2.8で他言語よりはるかに高い
2014/7のアカウントの影響が大きそう
CONTENT ANALYSIS
凍結されたユーザのツイートを分析
使用頻度上位5言語のハッシュタグ上位
https://gyazo.com/aeac38d12b27053c6a3a78fb77196212
音楽,テレビ,政治のハッシュタグが主
英語のハッシュタグのiHeartAwards, BestFanArmy, BTSARMYはiHeartAwardsで韓国のバンドへの支持を示すために使用
ポルトガル語のハッシュタグのBBB18, TheVoiceKids, MasterChefBRはブラジルのテレビ番組関連
トルコのハッシュタグのElection2018, PresidentErdogan, NewEraWithErdogan, WeWillNotForgetは政治的な内容
debateine,BrasilComBolsonaroらはそれぞれの大統領選挙に関連している
https://gyazo.com/e007af60fa779c9c54a276e28338c363
アラビア語のユーザ数は多くない(6位)が,ツイート数では2位であり,活動率が高い
ツイートに対してRTの割合が最も低く,オリジナルなツイートが多い
全体的にハッシュタグ,URL,Mentionの使用率が高い
英語ツイートの分析
凍結されたユーザをグループ化(クラスタリング)する.
クラスタリング手順
ハッシュタグネットワークを作成する
英語ツイートを用いてword2vecを学習
800回以上出現するハッシュタグ同士でコサイン距離を計算し,距離が決めた閾値よりも小さければエッジを形成
https://gyazo.com/da8398fb83ed2b7729a32f24ff21ae5a
ノードサイズは出現頻度に比例する
緑色: 政治クラスタ
ピンク色: 音楽クラスタ
ツイートから(上述のネットワークから)政治,音楽のユーザグループを定義
政治: 4,777人
音楽: 5,837人
両方: 194人
bioに使われている単語bi-gramのワードクラウド
https://gyazo.com/f7b3a728be2251f40df6984f0d8e0252
政治グループ: 政治的な内容
音楽グループ: follow_backや,アーティスト系(ex. shawn mendes)など
- ツイートに使われている単語bi-gramのワードクラウド
https://gyazo.com/03c36d9512fdb22bf2f66f7a35e25f9e
両グループとも話題がはっきりしている
政治グループ: トランプ関連の単語
音楽グループ: ミュージックアワード関連(BestFanArmy, BTSなど)
政治,音楽グループのハッシュタグ利用状況
https://gyazo.com/cbf116fa43fade4b5b31bdcb6ef6ff9c
政治系ハッシュタグはほとんどの場合安定している(一貫性)
音楽系ハッシュタグはイベントに合わせて限られた期間にツイートされている
iHeartAwards,BestFanArmy,BTSArmyは、2017/12から2018/3までiHeartAwardsが開催されるまでの間だけツイートされている
BBMAs,TeenChoiceも同様
iHeartAwardsを含むツイートをしたユーザの23%が他のAwardに関連したハッシュタグを使用
INTERACTION AND COMMUNITIES
凍結されたユーザ間で交流(関係)があったのか調査
凍結されたユーザ間で交流があることがわかる
https://gyazo.com/30bda5aca631e8ed91c3f2b0248d9683
↑の5大コミュニティの統計情報
それぞれ異なるコミュニティを表していることがわかる
https://gyazo.com/02543066e2e1df470596024e416fc5ac
この分析から異なる特徴を持つコミュニティが形成されていることがわかり,それぞれの言語コミュニティには似たような特徴を持っていることが推測される.
今回サンプリングしたツイートデータは全体の1%なので,作成されたコミュニティのほとんどは疎になっていた
DISCUSSION & CONCLUSION
今回240万人の凍結されたユーザに対して分析を行ったが,2018年の3か月で凍結されたユーザは7000万人であった.
Twitter以外のプラットフォームでも同様に悪用,凍結は行われているが,データ収集の制限で出来なかった
FutureWork: 凍結予測システムを開発することを目標にしている
所感
日本ではあまり政治的利用があまり見ない気がするので,海外のこういった動きは新鮮に感じられた
知らないところではあるのかもしれない
インドなどの東南アジアのControl:Purgeが多いのが気になった
このあたりはアドフラウドも多いイメージある
一般的に凍結されたユーザに対して分析を行いたいなら大統領選挙関連で凍結されたユーザを除外すれば良いのではと感じた
Twitter社のほうがリッチなデータが取れるが,こういった論文は出していないのか気になった