SummEval
SummEval(Fabbri et al., 2021)は、要約のための異なる評価方法を比較するベンチマーク。
各要約の4つの側面に対する人間の評価を提供する。
流暢さ
一貫性
整合性
関連性
GitHub:
テキスト要約の評価指標に関する包括的な最新の研究が乏しく、評価プロトコルに関するコンセンサスがないことが、進歩を阻害し続けている。我々は、要約評価手法の既存の欠点を5つの次元に沿って解決する:1) 専門家やクラウドソースによる人間の注釈とともにニューラル要約モデルの出力を用いて、14の自動評価指標を包括的かつ一貫性のある方法で再評価する、2) 前述の自動評価指標を用いて、最近の23の要約モデルを一貫してベンチマークする、3) CNN/DailyMailニュースデータセットで学習したモデルによって生成された要約の最大のコレクションを集め、統一されたフォーマットで共有する、4) 自動評価指標の幅広い範囲で要約モデルを評価するための、拡張可能で統一されたAPIを提供するツールキットを実装し、共有する。 5) CNN/DailyMailデータセット上でモデルが生成した要約について、専門家判定員とクラウドソースワーカーの両方がアノテーションを付けた、モデルの種類から見て最大かつ最も多様な人間の判定結果を収集し、共有する。我々はこの研究が、テキスト要約のより完全な評価プロトコルを促進し、人間の判断とより相関性のある評価指標を開発する研究を前進させる一助となることを期待している。