Predicting Audience-Rated News Quality: Using Survey, Text Mining, and Neural Network Methods
https://gyazo.com/9466815212f1ad3799b1a976966092a4
なぜ読んだか
記事の品質評価について知りたかった
INTRODUCTION
視聴者が評価するニュースの質を予測したい
デジタルなニュース環境において重要
視聴者の選択が記事が流通に影響を与える
ニュース配信やニュース制作に影響を与える
ニュースの質が高く評価されても、センセーショナルな記事がクリックやいいねなどを集め、広く配信されてしまう
我々の社会は多くの人が高品質とみなす記事が広く流通するようなニュースアルゴリズムを必要としている
ページビューやトラフィックよりも情報通に最適化するアルゴリズム
質の高いニュースを構成するために、視聴者がどのような観点を重視するかを調べることが重要
ジャーナリズム的価値、言語的、形式的特徴
News Quality Evaluation
「人々はジャーナリズムの何に価値を見出すのか」を問う時代がきた(Meijer 2013)
ジャーナリズムでは
視聴者は単にニュース記事の受け手であり、視聴者の意見の反映はニュース記事の質を下げるとされてきた
ニュースの質に対する視聴者の評価が無視してきたのは、視聴者には質を評価する能力が疑わしいとされてきた
いつくかの研究では、ジャーナリズムが重要と考えるものと視聴者が好んで読むものは一致しないことを示している
Boczkowski and Mitchelstein 2015; Boczkowski and Peer 2011; Wendelin, Engelmann, and Neubarth 2017
デジタルニュースプラットフォームで最も読まれているニュースから容易に観察することができる
ただし、これらの研究はニュースの質よりも視聴者が何を楽しんでいるかに焦点を当てている点に注意が必要
視聴者も質の判断は可能
Urban and Schweiger (2014)の研究
ニュース記事を異なるレベルの品質にコントロールし、視聴者に高品質のニュース記事を選ぶように求めたところ、参加者は全ての高品質のニュース記事を高く評価し、参加者間でのばらつきもほとんど見られなかった
質の概念を明瞭にするのは難しいが、質の高いニュースという社会的なコンセンサスが存在すると言える
本研究では、人々のニュースの質評価の予測を試みる
質評価にどういう要因が影響するか
ジャーナリズム的価値、言語的特徴、形式的特徴
News Content vs Presentational Attributes
ニュースの質を評価する手掛かりとして、コンテンツ属性と表現的属性の2つがある
コンテンツ属性 = ジャーナリズム的価値
表現的属性 = 言語的、形式的特徴
Webサイトの信頼性評価モデル
Metzger (2007) and Sundar (2008)
Webサイトのコンテンツと、Webサイトのデザイン・レイアウト
コンテンツ属性や表現的属性とともに、視聴者属性を考える必要がある
認知動機や認知能力はニュース獲得、ニュース評価に影響を与える
認知能力は事前知識で定義
一般知識と専門知識がある
ニュース消費に関する文献では、ニュースメディアへの露出や政治的議論の頻度がニュース評価に影響を与える可能性があることを示唆している
報道への信頼性も影響
報道機関への信頼度合いもニュース評価に影響
News Content Attributes (Journalistic Values)
ニュースの質をジャーナリズム的価値観から説明する試みがいくつかされている
ジャーナリズム的価値
ジャーナリストやジャーナリズムの研究者が議論してきた価値観
accuracy, fairness, objectivity, impartiality, truthfulness, sincerity
最近では diversity の重要性が増している
ジャーナリズム的価値は、ジャーナリストやジャーナリズムの研究者の考え方から導かれたものであるが、実験的な調査にもサポートされている
accuracy, fairness, balance, lack of sensationalism, good writing, variety of content, and fact-opinion separation as the criteria for news quality (Bogart 2004; Gladney, 1990; Gladney, Shapiro, and Castaldo 2007; Sallot, Steinfatt, and Salwen 1998)
ニュース消費に基づく研究
news audiences’ perceptions of relevance, accuracy, comprehensibility, and impartiality affect their news evaluation (Urban and Schweiger 2014)
diversity, importance, factuality, readability, and sensationalism explain their news credibility (Choi 2019)
これまでの知見から14項目を検討
impartiality, diversity, informativeness, objectivity, comprehensiveness
depth, originality, readability, comprehensibility, clarity
factuality, interpretivism, sensationalism, believability
事前実験を行い、因子分析をし、7項目に絞った
depth, diversity, objectivity, factuality, readability, sensationalism, believability
これまでの議論から、正確性、公平性、客観性、真実性、信頼性、多様性が高ければ高いほど、ニュースの質は高くなる
しかし、どの要素が質予測においてより重要かはわかっていない
いくつかの研究で、実証実験が行われ、相対的な重要性を測定しているが、異なる結果が得られている
オンラインニュース編集者は、believability, objectivity, factuality, readability, depth, diversityの順で評価した (Gladney, Shapiro, and Castaldo (2007))
ジャーナリストは、factuality, diversity, readability, objectivityの順で評価した (Sallot, Steinfatt, and Salwen (1998))
ニュース視聴者は、readability, objectivity, diversity, factuality の順で評価した(Urban and Schweiger (2014))
別の研究では、diversity, factuality, sensationalism, readability (Choi (2019))
先行研究の相違は、評価の仕方や、評価対象者から来るのかもしれない
本研究では一般視聴者を対象とする
News Presentational Attributes (Linguistic/Formal Features)
ニュースの表現的特徴を重要な要素である
ニュース記事内の引用や数値は、ニュースの事実性を保証する重要な装置である
ニュースのソースは質を判断する重要な基準である
Reporting Index
Project for Excellence in Journalismが開発した基準
高品質と認められるには、4つ以上の透明性のある情報源、複数の視点、4人以上の関係者が必要
検証されていない事実が含まれてはならない
これまでの実証実験
引用や統計、著者情報、ソースのリファレンスの存在がWebサイトの信頼性に良い影響を与える (Hong 2006; Rains and Karmikel 2009)
ニュース記事に含まれるオリジナリティは、質にとって重要な要素 (Park 2006)
多様なソースや視点が必要なため長いニュース記事ほど質が高いと推定される傾向 (Park 2006)
客観性の担保のため、主観的な表現を避けることが推奨される (Park 2006)
インフォグラフィックス、ハイパーリンク、マルチメディアなども、ニュースの信頼性、関連性、理解に影響する (Brantner, Lobinger, and Wetzstein 2011; Chung 2017; Go, Jung, and Wu 2014; Lee and Kim 2016; Sundar 2000)
最近では、1文の単語数、引用数、形容詞、副詞の数や極性などがジャーナリズム価値の評価に影響することが示された (Choi 2019)
ニュースヘッドラインでは、独自性が低く、単語数が多く、感嘆符、疑問符、引用符が少なく、名詞や難しい単語の割合が低く、固有名詞、動詞、副詞の割合が高いほど、人気が高い傾向がある (Piotrkowicz et al. 2017)
ニュースの質が高いほど、文字数、単語数、エンティティ数、文数が多くなる (Arapakis et al. 2016).
本研究では、どの言語的特徴と形式的特徴がニュースの質予測において重要かを検証する
テキストマイニング技術を使い抽出
ニュース記事中の情報源や関係者、エンティティなど
疑問符や主観的な述語の数など
情報のオリジナリティは記事間のコサイン類似度を計算
提案モデルはコンテンツ属性(ジャーナリズム的価値)と表現的属性(言語的、形式的特徴)を含む
視聴者のニュースの質評価の予測にどの要素が重要なのかはわかっていない
Research Question
RQ1: 視聴者が評価するニュースの質を予測する上で、どちらの属性がより重要か
RQ2: 視聴者が評価するニュースの質を予測する上で、どのジャーナリズム的価値が重要か
RQ3: 視聴者が評価するニュースの質を予測する上で、どの言語的、形式的特徴が重要か
Methods
韓国のデータを利用
ロイターが調査した38カ国の中でニュースに対する信頼性が一番低い
Text Data
Data Collection
11事象に関する4,294記事をNaver.comから収集
記事収集のため、各事象に対してヘッドラインに含めるキーワードと除外するキーワードを準備
記事の類似性を担保するため、各事象に対してデータ収集期間を設定
データは2017年8月から2018年8月までの記事
政治、公共問題
ジャーナリストが重要視している領域であり、品質の高いニュースが相対的に重要
社説、寄稿文は除外
個人的な意見や主観を伝えるものであり、ジャーナリズムの規範に沿わないため
データセットには以下の情報を含む
ニュースの見出し
ニュースのサブ見出し
本文
署名(ジャーナリスト、記者名、メールアドレス、所属、役職(あれば))
媒体名
アップロード時間
画像、図表、グラフの数
URL
1,500記事のデータセット
研究費や現実的な調査の限界を加味して限定
21の媒体が含まれる
メジャー、マイナーニュース媒体や、一般、特定ニュースをカバー
NLP/Text-Mining Analyses
1,500記事にNLPを適用
konlpy, Mecab-koを利用
44の韓国語品詞タグを付与
韓国のNewsTrustプロジェクトが構築した固有表現辞書を利用
人名、組織名、地名、政策、製品、イベントに分類
KOSACとK-LIWCを抽出
引用、受動構文、機能語と内容後の比率、接続詞、述語タイプなどを抽出
Survey Data
Data Collection
1,500記事を10記事ごとに分割し、回答者グループに割り当て
多様な問題を含んだ10のニュース記事に分割(各セット3000字程度)
回答者の各グループ(150グループ)に割り当てる
各グループには50人以上の回答者が含まれる
回答者の性別、政治的イデオロギーをコントロールしつつランダム
回答者
20歳以上
報道機関やニュースプラットフォームに勤務していない
週2日以上ニュースを消費している
ニュースの質評価に影響を与える可能性があるため、調査に利用する記事には媒体名やクリック数などは含めていない
2018年11月16日から12月18日にオンラインで調査を実施
7,810人の有効回答者
26人除外
Measurement
記事の品質を10段階評価
ジャーナリズムの価値観の7項目を7段階評価
“strongly disagree” (1) to “strongly agree” (7)
I think the news article I just read is based on
facts (factuality)
is easy to read (readability)
addresses diverse perspectives (diversity)
is objective (objectivity)
appeals to emotion (sensationalism (reverse-coded))
is in-depth (depth)
is believable (believability)
回答者の負担を軽減するため、ジャーナリズム的価値とニュースの質は、必然的に1つの質問とした
認知動機
政治、公共問題に対してどの程度関心があるかを7段階で質問
一般知識
現職の首相の名前、憲法違反に関する決定を行う組織、大統領の任期などの質問に回答してもらった
平均=0.75、標準偏差=0.25
専門知識
来年の最低賃金など専門性の高い質問に回答してもらった
平均=0.48、標準偏差=0.22
ニュースメディアの利用状況
日常生活で利用しているニュースメディア(新聞、テレビ、インターネット、その他)の数(1〜4)
平均 2.12、標準偏差 0.68
政治的議論の頻度
前週に政治や公共問題に関する議論に何日参加したか(0〜7)
平均 2.18、標準偏差 1.76
報道機関の信頼度
報道機関をどの程度信頼しているかを質問
年齢
平均 46.91、標準偏差 13.57
教育
5段階(1=elementary graduate or lower, 5=graduate degree earned or lower)
平均 3.93、標準偏差 0.61
収入
5段階 (1=none to one million won, 5=7 million won or more).
平均 3.27、標準偏差 1.06
Artificial Neural Network (ANN)
視聴者が評価するニュースの質のモデリングにANNを利用
特徴量とニュースの質は非線形で、理論的に予測不可能なため
多層フィードフォワードANN
標準的な統計的アプローチとは異なり、ANNは変数間の複雑な関係を調べるのを可能にする
中小規模のデータセットで、クロスバリデーションしてテストをすることで不確実性を定量化し、従来の回帰モデルよりも正確な予測ができる
ANNに使用するデータセット
各ニュース記事の回答者は50人以上
ニュースの品質、ジャーナリズム的価値
回答者のスコアを平均して各ニュース記事の複合スコアを作成
生のスコアではなく、z-scoreで回答者ごとのばらつきを制御
z-scoreの平均をもとに、ニュースの品質スコアを5カテゴリに分類
300記事程度が分類対象
言語的特徴は記事の長さが影響するため、言語特徴数を形態素数で割る
視聴者属性は同一グループ内で平均化
最終的には 1500 x 100 の行列
1500記事と99のジャーナリズム的価値、言語、形式的特徴、視聴者属性と、記事品質
記事ID
7のジャーナリズム的価値
82の言語、形式的特徴
9の視聴者属性
記事品質
Results
ニュースの質を予測するニューラルネットワークモデル
ハイパーパラメータはグリッドサーチで探索
1050記事を学習、150記事を検証、300記事をテストとして利用
性能
他の手法と比べても、クロスエントロピーの小さくできている
提案手法は3つの隠れ層と30のノード
3つのモデルはlog lossはどれも良いが、精度は提案手法が最もよい
品質が完全一致したのが54%
品質が1または5の場合、誤分類率は11%以下
一方、中間の品質(2〜4)の場合は誤分類率は45%〜67%だった
低品質と高品質には明確な違いがあり予測可能だが、中間はグレーゾーンが存在
https://gyazo.com/21e91f460c6f7176f3f2cae8035196ee
https://gyazo.com/6c79db58d248d47b508d18ccc36351a6
ablation study
フルモデルからそれぞれの属性を除外して、予測精度を確認
コンテンツ属性を除外したときに一番性能が落ちた
RQ1については、ジャーナリズム的価値が重要とわかった
https://gyazo.com/0edc60c7b26cca46b30f618f3b5c0114
ジャーナリズム的価値とニュースの質を同じ回答者が評価しているから、影響が強くなるのではという意見もあるが妥当ではないと考える
ジャーナリズム的価値のスコアは回答者の合成スコアである
回答者のジャーナリズム的価値と質との関係はばらつきがあり、合成することで打ち消される
記事Aを客観的と評価する人もいれば、そうでないという人もいるし、読みやすいと評価する人もいれば、読みにくいと評価する人もいる
RQ2とRQ3に答えるために、各予測変数の相対的重要度を調査
最も重要な予測変数を1とした相対的な値
重要度はモデルに使った特徴量間での重要度であり、絶対的なものではない
相対的重要度は予測変数の方向性は示さない
ジャーナリズム的価値のうち、believabilityについでdepthとdiversityが数値が高かった
sesationalismを除いて全てのジャーナリズム的価値が他の属性の変数より高い値だった
想定通り、質の高い記事はbelievability, depth, diversity, readability, objectivityが高く、sensationalismが低かった
言語・形式的特徴
接続詞
接続詞 (temporal)(e.g. meanwhile, during, then)が最も重要
接続詞 (switch) (e.g. but, however, nonetheless) も比較的高かった
ただし、高品質の記事には接続詞(temporal, switch)は少なかった
多過ぎるのは少な過ぎるのと同じくらい悪いという天井効果がある可能性
署名
署名は専門性に関らず重要、匿名性も質に影響を与えている
高品質の記事にはメールアドレスや取材地域を含むものが多く、匿名の情報源を含むものが少ない
主観的表現
主観的な表現である判断 (e.g. bad, merit) や主張 (e.g. not true, refute) も予測に寄与している
主観的な述語である議論 (e.g. emphasize, require) や予測 (e.g. imply, predict ,suggest)、評価述語 (e.g. be equivalent to, be highly probable) も影響がある
高品質な記事には、主観的な表現が少なかった
認知
高品質記事には暫定的、能動的、楽観的な表現が少なく、認知的な表現が多かった
暫定的(e.g. guess, if, may)
能動的、楽観的 (e.g. support, dynamic, easing)
認知的 (e.g. how, control, affect)
漢字の出現率も影響
漢字が多いと、難解で複雑になる
高品質の記事は、低品質な記事と比較して漢字が少なかった
固有表現
人名のみが影響
高品質な記事には人名が少なく、先行研究に反する
こちらも天井効果がある可能性
オリジナリティ
高品質な記事はコサイン類似度は高い
質にはオリジナリティが重要という先行研究に反する
内容が似ているので、偽物ではないと認識され信じやすくなる可能性
視聴者属性
収入 (Income) と教育 (Education) が相対的に重要
一般的な知識 (General knowledge) は専門知識 (Issue knowledge) より影響力が強い
品質評価には一般知識がモチベーション(Issue involvment)よりが重要
https://gyazo.com/d19d869c99e4a3e9c2e1d9de2fc16545
Conclusion
研究の位置付け
デジタルニュースプラットフォームでは、ニュースアルゴリズムが視聴者の反応を重視するため、視聴者は記事の配信に影響を与える
このような状況のため、視聴者が質の高いとみなすニュース記事がより重要となる
しかし、従来研究では、ジャーナリストやジャーナリズムの研究者が設定したニュースの品質に着目しており、視聴者による品質判断は軽視されてきた
さらに、人の品質判断をいかにマシンリーダブルな特徴量にするかが重要であるが、従来研究では認知、計算言語的特徴はほとんど考慮されていない
これらのギャップを認識し、本研究ではコンテンツ属性と言語・形式的属性、視聴者属性の複合的に考慮し、視聴者が評価する質の調査を行った
本研究の知見はデジタルニュース配信に大きな意味を持つと考えられる
実験結果からの知見
回答者間にばらつきが大きかったり、回答者の認知リソースを多く必要とするものの、視聴者評価の質の予測にジャーナリズム的価値が重要であることがわかった
このことにより、高品質のニュースサービスを提供するためには、ニュースアルゴリズム開発者やオーナーがジャーナリズムの価値を考慮したアルゴリズムを開発する必要がある
ジャーナリズム的価値を排除したときに精度が落ちたことは、質の高いニュースを配信するアルゴリズムの開発は、言語・形式的特徴に着目するだけでは達成できない
believability, depth, diversityが特に重要であり、ジャーナリストやジャーナリズムの研究者と同様に、視聴者もジャーナリズム的価値をニュースの質の重要な要素として評価している
所感
高品質な記事を識別できるのはよさそう
質を考慮したアルゴリズムを作れたときに、ユーザー体験としてどのくらい改善されるかは不明