CoD論文
https://scrapbox.io/files/65b0b3af0d50bb0024bf0d17.png
論文情報
タイトル:From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting
発行日:2023年9月
著者:Griffin Adams, Alexander Fabbri, Faisal Ladhak, Eric Lehman, Noémie Elhadad
所属:Salesforce
論文のポイント
決まった文字数の中で、要約でより多くの情報を伝えるには、抽象化、圧縮、融合の組み合わせが必要になる。
一般的に、情報密度が高い方が望ましそうに思えるが、あまりに密度が高いとかえってわかりづらい。
読みやすさと情報量の間には、トレードオフが存在する
要約が十分な詳細を含まなければ、情報が不足するし
あまりにも多くの情報を含むと、全体の長さを増やさずには理解しにくくなる
このトレードオフをより理解するために、考案されたのがこのプロンプト
GPT-4に、段階的に密度の高いGPT-4の要約を求める手法 具体的には、要約の密度を、Entities/Token(トークン当たりのエンティティの平均数)と定義
最初にエンティティの少ない要約を生成する。
その後、全体の長さを増やさずに、前の要約から1-3の欠けているエンティティを反復的に特定し、融合する
これを5回繰り返す
実験
NLTKを使用してトークンを計算し、Spacyでユニークなエンティティを測定し、Entities/Tokenを計算
GPT-4と論文著者4人に、どちらがより好ましい(表6の基準)要約かを指摘
結果
https://scrapbox.io/files/65d2a7f4d1ef0600255aaf9b.png
3回目のCoDが、人間のした要約に近づき、人間が好むCoDの要約になるということが判明した。
https://scrapbox.io/files/65b0cad69a08e3002330875d.png
GPT-4の評価
2-4回目を好んだ
https://scrapbox.io/files/65d30ee9ddedac002599ee0a.png
最初と最後(1回目と5回目)は好まない
論文を読んで感じたこと
https://scrapbox.io/files/65b0bead09dafc00238dd5ba.png
なんでも詳細に情報をつめればいいというわけでない
https://scrapbox.io/files/65d30f0ac547180025a7ba0e.png
読みやすさ/一貫性と、情報の密度には、トレードオフの関係がある
一定程度(2-3回のstep)の濃縮は好まれることがわかったが、要約にトークンあたりのエンティティが多すぎると、可読性と一貫性を維持するのが非常に困難になる
実際にどうする?
プロンプトは?
Figure2の画像を参考とする
https://scrapbox.io/files/65b0cee29a08e3002330e2eb.png
テンプレート
code:markdown
記事: {記事}
あなたは私に記事を求めてください。それから、その記事のより簡潔で、エンティティの密度が高
いした要約を作成します。
次の2ステップを5回繰り返します。
- ステップ1. 以前に生成された要約に欠けている、1-3個の有益なエンティティ (";" 区切り)
を記事から特定する。
- ステップ2. 前の要約にあるすべてのエンティティや詳細に加えて、欠けているエンティティを
含む、新しいより密度の高い同じ長さの要約を書く。
欠けているエンティティ:
- 主要な話に関連している、
- 特定でありながら簡潔(5語以下)、
- 新規(前の要約にない)、
- 正確(記事に存在する)、
- どこにでも(記事内のどこにでも位置している)。
- 最初の要約は長い(4〜5文、約80語)ですが、非常に特異性が低く、欠けているエンティテ
ィ以外の情報はほとんど含まれていない。過度に冗長な言葉やフィラー(例:「この記事では、
以下について説明する。」)を使って約80語に達してください。
- すべての単語を数える:前の要約を書き直して流れを改善し、追加のエンティティのためのス
ペースを作る。
- 「この記事では、以下について説明する。」などの情報のないフレーズの融合、圧縮、除去で
スペースを作る。
- 要約は非常に密度が高く簡潔でなければならず、記事なしで簡単に理解できる自己完結型であ
ること。
- 欠けているエンティティは新しい要約のどこにでも現れることができる。
- 前の要約からエンティティを決して落とさない。スペースが作れない場合は、新しいエンティ
ティを少なく追加する。
各要約には正確に同じ数の単語を使ってください。
概要
「適切な」情報量を要約に含めることは難しい課題です。良い要約は詳細でエンティティ中心であるべきですが、過度に密度が高く、理解しにくいものであってはなりません。このトレードオフをよりよく理解するために、私たちは「密度の連鎖」(CoD)プロンプトと呼ばれる方法で、段階的に密度の高いGPT-4の要約を求めます。具体的には、GPT-4は初期のエンティティが少ない要約を生成し、その後、長さを増やさずに欠けている重要なエンティティを反復的に組み込みます。CoDによって生成された要約は、バニラプロンプトによって生成されたGPT-4の要約よりも抽象的で、より多くの融合を示し、リードバイアスが少ないです。私たちは100のCNN/DailyMailの記事について人間による好みの研究を行い、人々がバニラプロンプトによって生成されたGPT-4の要約よりも密度の高い要約を好み、人間によって書かれた要約とほぼ同じくらいの密度の要約を好むことがわかりました。定性的な分析は、情報量と読みやすさの間にトレードオフが存在するという考えを支持しています。500の注釈付きCoD要約と、さらに5,000の注釈なしのCoD要約がHuggingFaceで無料で利用可能です。 1 はじめに
自動要約は過去数年で大きく進歩してきました。これは、ラベル付きデータセットでの教師ありファインチューニングから、大規模言語モデル(LLM)を使ったZero-Shotプロンプティングへのパラダイムシフトによるものです。例えば、GPT-4(OpenAI、2023)。追加のトレーニングなしに、注意深いプロンプティングは要約の特性を細かくコントロールすることを可能にします。例えば、長さ、トピック、スタイルなどです。見過ごされがちなのは、要約の情報密度です。理論的には、他のテキストの圧縮として、要約はソースドキュメントよりも密度が高く、より多くの情報を含むべきです。LLMデコードの高遅延(Kaddour et al.、2023)を考えると、特にリアルタイムアプリケーションのためには、少ない言葉でより多くの情報をカバーすることは価値ある目標です。しかし、どのくらいの密度が適切かは未解決の問題です。要約が十分な詳細を含まなければ、情報が不足しています。しかし、あまりにも多くの情報を含むと、全体の長さを増やさずには理解しにくくなります。固定されたトークン予算の下でより多くの情報を伝えるには、抽象化、圧縮、融合の組み合わせが必要です。追加情報のためのスペースを作る限界があり、それを超えると不明瞭になったり、事実上間違っていたりする可能性があります。この論文では、GPT-4によって生成された段階的に密度の高い要約のセットに対する人間の好みを求めることにより、この限界を特定しようとします。密度の代理として、特にトークン当たりのエンティティの平均数を扱い、私たちは初期のエンティティの少ない要約を生成します。その後、全体の長さを増やさずに、前の要約から1-3の欠けているエンティティを反復的に特定し、融合します(全体で5倍)。 https://scrapbox.io/files/65b0ba34a2093c002341ef6c.png
各要約は前のものよりもトークンに対するエンティティの比率が高くなっています。人間の好みのデータに基づいて、私たちは人々がバニラGPT-4プロンプトによって生成された要約よりも密度の高い要約を好み、人間によって書かれた要約とほぼ同じくらいの密度の要約を好むことを発見しました。私たちの主な貢献は以下のとおりです:
要約を段階的にエンティティ密度が高くするプロンプトベースの反復的方法(CoD)を開発。
CNN/Dailymailの記事における密度の高い要約の人間と自動評価を行い、情報量(より多くのエンティティを好む)と明瞭さ(より少ないエンティティを好む)の間のトレードオフをより深く理解する。 ・GPT-4の要約、注釈、および5,000の未注釈のCoD要約のセットをオープンソース化し、評価や蒸留に使用する。
2 密度の連鎖プロンプティング
プロンプト
私たちの目標は、長さを制御しつつ、情報密度の異なるGPT-4の要約セットを生成することです。これは、要約を評価する際の強い交絡因子であると証明されています(Fabbri et al.、2021; Liu et al.、2023b)。これを実現するために、私たちは単一の密度の連鎖(CoD)プロンプトを定式化します。ここで、初期の要約が生成され、段階的にエンティティが密集したものになります。具体的には、固定された回数のターンで、ソーステキストから一連のユニークで重要なエンティティが特定され、長さを増やさずに前の要約に統合されます。最初の要約は1-3の初期エンティティにのみ焦点を当てるため、エンティティが少ないものです。エンティティの数を増やしながら同じ長さを維持するために、抽象化、融合、圧縮が明示的に奨励されますが、前の要約から有意義なコンテンツを省くのではありません。
FIgure 2は、プロンプトと一例の出力を示しています。
https://scrapbox.io/files/65b0bc5a3d99b20023fa6d6b.png
エンティティの種類を規定するのではなく、ミッシング・エンティティを次のように定義する:
関連性:メインストーリーに関連している。
具体性:説明的でありながら簡潔(5語以下)。
新規性:前の要約には含まれていない。
忠実性:記事に存在している。
どこでも:記事のどこにでも存在する。
データ
基準点
参考のために、私たちはCoD要約の統計を人間によって書かれた箇条書きスタイルの参考要約と、バニラプロンプトでGPT-4によって生成された要約と比較します。「記事の非常に短い要約を書いてください。70語を超えないでください。」CoD要約の望ましいトークンの長さに合わせて設定します(表1に示されています)。
3 統計
直接的な統計
表1では、NLTK(Loper and Bird、2002)を使用してトークンを計算し、Spacyでユニークなエンティティを測定し、比率としてエンティティ密度を計算します。CoDプロンプトは主に固定トークン予算に従っています。実際、2番目のステップでは、最初に冗長な要約から不要な単語を削除することで、平均5トークン(72から67)の長さが短縮されます。エンティティ密度は上昇し、最初は人間とバニラGPT-4(0.151および0.122)よりも低い0.089から始まり、5ステップの密度化の後に0.167になります。
https://scrapbox.io/files/65b0bddfa31ac7002468bbf4.png
間接的な統計
各CoDステップで要約が反復的に書き直されるため、抽象性は増加するはずです。私たちは抽象性を抽出密度で測定します。これは、抽出フラグメントの平均二乗長です(Grusky et al., 2018)。同様に、固定長の要約にエンティティが追加されるにつれて、コンセプトの融合レベルも単調に増加するはずです。私たちは、要約文ごとにソース文が整列する平均数で融合を代理測定します。整列のために、私たちは相対ROUGE利得法(Zhou et al.、2018)を使用し、追加の文の相対ROUGE利得が正でなくなるまで、ソース文をターゲット文に整列させます。また、コンテンツの分布、つまり要約のコンテンツがソースされる記事の位置が変化することも期待されます。具体的には、CoD要約は最初は強いリードバイアスを示しますが、次第に記事の中間や終わりからエンティティを取り入れるようになると予想されます。これを測定するために、私たちは融合からの整列を使用し、整列したすべてのソース文の平均文ランクを測定します。Figure 3はこれらの仮説を確認しています:抽象性は書き直しの回数とともに増加します(左の低抽出密度)、融合の割合が上昇します(中央の図)、要約は記事の中間や終わりのコンテンツを取り入れるようになります(右の図)。興味深いことに、すべてのCoD要約は、人間によって書かれた要約とベースライン要約よりも抽象的です。
https://scrapbox.io/files/65b0bead09dafc00238dd5ba.png
4 結果
CoD要約におけるトレードオフをよりよく理解するために、私たちは好みに基づく人間の研究とGPT-4による評価を行いました。 人間の好み
私たちは、濃縮が人間の総合的な品質評価に与える影響を評価するために人間の評価を行います。具体的には、論文の最初の4人の著者が、同じ100の記事のためにランダムにシャッフルされたCoD要約と記事を提示されました(5ステップ * 100 = 合計500の要約)。Stiennon et al.(2020)の「良い要約」の定義に基づいて(彼らの論文の表6)、各アノテーターは彼らの最も好ましい要約を指摘しました。
https://scrapbox.io/files/65d2ab42db5d5c002568737f.png
表2は、アノテーター別およびアノテーター全体に渡るCoDステップ別の第1位の票の内訳を報告しています。
まず、私たちはFleissのカッパ(Fleiss、1971)が低い0.112を報告し、これは要約間の微妙な違いとタスクの主観的な性質を示しています。最近の研究でも、GPTベースの要約を評価する際にインスタンスレベルの合意が低いことが指摘されています(Goyal et al.、2022)。しかし、システムレベルでは、いくつかの傾向が見られます。4人のアノテーターのうち3人にとって、CoDステップ1が100の例において最も多くの第1位の票を獲得しました(それぞれ28、43、31.4%)。しかし、集計すると、第1位の要約の61%(23.0+22.5+15.5)が≥3の濃縮ステップを含んでいます。好ましいCoDステップの中央値は中間(3)であり、期待されるステップは3.06です。
ステップ3の要約の平均密度に基づいて、CoD候補の好ましいエンティティ密度を約0.15と推測できます。表1から、この密度は人間によって書かれた要約(0.151)と一致し、バニラGPT-4プロンプトで生成された要約(0.122)よりも顕著に高いことがわかります。 https://scrapbox.io/files/65b0c6747154e9002432885c.png
自動メトリック
評価者として、GPT-4は人間の判断と適度に相関していることが示されています(Fu et al.、2023; Liu et al.、2023a)、さらには、いくつかのアノテーションタスクでクラウドソースの作業者よりも優れている可能性があります(Gilardi et al.、2023)。私たちの人間による評価(以下)の補完として、私たちはGPT-4に5つの次元(情報性、品質、一貫性、帰属可能性、全体)に沿ってCoD要約を評価(1-5)させます。情報性、品質、帰属可能性の定義はAharoni et al.(2023)から来ており、一貫性はSummEvalから来ています。全体は、これらの特性を共同で捉えることを目指しています。各次元に対するスコアを求めるために使用されたプロンプトについては、付録Aを参照してください。 Article: {{Article}}
Summary: {{Summary}}
Please rate the summary (1=worst to 5=best) with respect to {{Dimension}}.
{{Definition}}
表3は、濃縮が情報性と相関していることを示唆していますが、スコアはステップ4(4.74)でピークに達し、限界があります。記事の自由次元:品質と一貫性は、それぞれ2ステップと1ステップ後に早く低下します。すべての要約はソース記事に帰属すると見なされています。全体のスコアは、より密度が高く情報性のある要約に偏っており、ステップ4が最も高いスコアを持っています。次元全体の平均では、最初と最後のCoDステップが最も好まれず、中間の3つが近いです(それぞれ4.78、4.77、4.76)。
https://scrapbox.io/files/65b0c74b41551a0025a7174f.png
付録Aでは、全体メトリックが人間の判断と最も高い要約レベルの相関(0.31ピアソン相関)を報告していますが、要約が同様の品質の場合にDeutsch et al.(2022)によって観察された現象である全体的に低い相関を指摘しています。
https://scrapbox.io/files/65b0c78f1880b900232cbd14.png
質的分析
要約の一貫性/読みやすさと情報性の間には明らかなトレードオフが存在します。例を挙げると、Figure 4では、詳細が増えて要約が改善されたCoDステップと、要約が損なわれたCoDステップの2つを示しています。平均的に、中間のCoD要約がこのバランスを最も達成しましたが、このトレードオフを正確に定義し、定量化するための今後の作業に任せます。
https://scrapbox.io/files/65b0c87c4e5646002361daa5.png
Figure 4: 人間に好まれる高密度化ステップ(左)と好まれない高密度化ステップの例。左の場合、「リヴァプール」とゴールスコアラーが追加されているため、一番下の要約が好ましい。2番目の要約は、「試合に戻る可能性のあるルート」を「カムバック」に合成するなど、賢明な圧縮で余地を作っている。右の要約では、「TVMonde」の詳細が追加されているが、「サイバー攻撃」と「イヴ・ビゴ」のような厄介な実体の融合を補うことはできない。
5 関連研究
GPTによる要約
Goyal et al.(2022)はGPT-3をニュース記事要約にベンチマークし、人々が既存の教師ありベースラインよりもGPT-3の要約を好むことを発見しましたが、これは既存の参照ベースおよび参照フリーのメトリクスを反映していませんでした。Zhang et al.(2023)は、フリーランスのライターから高品質の要約を求めることにより、ゼロショットGPT-3の要約が人間と同等のパフォーマンスを発揮することを発見しました。
エンティティベースの要約
Narayan et al.(2021)は、教師あり微調整のための計画ステップとしてエンティティチェーンを生成することを提案しましたが、これはキーワード(Li et al.、2020; Dou et al.、2021)や純粋に抽出的なユニット(Dou et al.、2021; Adams et al.、2023a)とは対照的です。エンティティは、制御の形態(Liu and Chen、2021; He et al.、2022; Maddela et al.、2022)、信頼性の向上(Nan et al.、2021; Adams et al.、2022)、および評価の単位(Cao et al.、2022; Adams et al.、2023b)として要約に組み込まれてきました。
6 結論
私たちは、要約の濃縮が総合的な品質に対する人間の好みに及ぼす影響を研究しました。一定程度の濃縮が好まれることがわかりましたが、要約にトークンあたりのエンティティが多すぎると、可読性と一貫性を維持するのが非常に困難になります。私たちは注釈付きのテストセットと、固定長、可変密度の要約に関するさらなる研究のためのより大きな注釈なしのトレーニングセットをオープンソース化しました。
7 制限事項
私たちは、ニュース要約という単一のドメインについてのみCoDを分析しました。アノテーションは要約レベルの高い合意を示しませんでしたが、システムレベルの傾向を示し始めました。これは、LLMベースの評価に関する以前の研究(Goyal et al.、2022)と一致しています。最後に、GPT-4はクローズドソースモデルなので、モデルの重みを共有することはできません。しかし、私たちはすべての評価データ、アノテーション、および下流の用途に使用される5,000の注釈なしのCoDを公開しています。例えば、オープンソースモデルであるLLAMA-2(Touvron et al.、2023)への密度の蒸留などです。