Beyond Personalization: Social Content Recommendation for Creator Equality and Consumer Satisfaction
2019/10/24
Author:
Wenyi Xiao*, Huan Zhao*, Haojie Pan*, Yangqiu Song*, Vincent W. Zheng*, Qiang Yang†
*Hong Kong University of Science and Technology, Hong Kong
†WeBank, China
この論文はむずい
これは何
CFのコンテンツベースの推薦はユーザとコンテンツの特徴や類似性を考慮して推薦している
これはユーザの特定のトピックに重点をおいており、ユーザが積極的に探索しない限り、推薦結果の多様性が失われるかも
CFでの推薦はマシュー効果*を引き起こし、小規模/新規のクリエイターを害する恐れがある
クリエイターとコンシューマーの双方のメリットを考慮した推薦を提案する
*: 資産を持っている者に資産が集まり、資産が少ないものは資産が集まらない現象,効果
ここがキモ
提案手法SEAN(Social Explorative Attention Network)
マーシャル効果を避けるため人気や社会的な影響といったグローバルな情報を影響を受けにくくした推薦を行う
友人の情報を追加することにより、推薦の精度をあげている.
文書表現
階層型のAttension Networkを用いて表現(ユーザ情報を文書表現に用いているためユーザごとにベクトルが異なる)
単語レベル: Attensionを用いて有効な単語を選択して表現に影響させる
文レベル: Attensionを用いてドキュメント全体から有効な文を選択して影響させる
ユーザ表現 <- いまいちどんなベクトルか読み解けなかった
ドキュメント表現の概略図
ユーザ情報を単語と文ベクトルの生成時に使用
単語レベルの表現を結合した文を順方向と逆方向を結合
https://gyazo.com/6b731c20a19506ec9ce2d84dcc02338a
評価値がよい友人を(幅と深さの観点から)選択
https://gyazo.com/beee5b86b1fd60993b45ae87d9c67631
実験
分散型ソーシャルプラットフォームSteemitにて二つのデータセットを生成 Steemit-English
Steemit-Spanish
期間: 2017年6月2日から2018年7月6日
ユーザ、ドキュメント、ラベル(Click or not)のサンプル
https://gyazo.com/ef116d660069ff36e0985634b1bbb04d
設定
ドキュメントはPre-Trainの単語埋め込み表現を適用し、それを初期ベクトルとして、トレーニングしながら修正
モデルは6Epocでトレーニング
Datasetはトレーニングとバリデーションで9:1
過去t日間のデータからモデルを学習し、t+1のデータを使用してテスト
あとは各種の手法に沿ったパラメータチューニングがなされる
結果
C&C : Gini係数とF1の調和平均
Gini係数: クリエイターコンテンツの平等性を示す
F1: コンシューマの満足度を示す
https://gyazo.com/906fddb1142356423d3c7f48e3ad81cc
コンテンツベースモデルのDKNと比較して全ての評価指標が向上、CFベース手法(NCF, SAMN)と比較しても向上
以上の結果より社会情報を組み込むモデルは効果的であることがわかる
コンテンツベースモデルのGini係数はCFベースモデルより係数が小さくなることから、CFベースモデルはマシュー効果が出やすいことがわかる
- > コンシューマの推薦の品質においては、提案手法がクリエイターに提供するコンテンツを改善できる
所感
そもそもSteemitがなかなかすごい、ブロックチェーンとニュースシステムを混同させていて興味深かった
FaceBookなどのユーザ間の関係性が構築されているモデルならば有効に働きそうである
ただユーザごとに全てのドキュメントを計算しなければならずデータ量が多く、また計算量がひたすらに多いイメージ
Gunosyへの活用は難しい
今回は載せなかったが、予測モデルやハイパーパラメータといった詳細な部分をを分析しているので、今後の手法選択の際に再読したい