STORM論文
https://scrapbox.io/files/6654d612332a58001c2ac56e.png
論文情報
タイトル:Assisting in Writing Wikipedia-like Articles From Scratch
with Large Language Models
発行日:2024年4月
著者:Yijia Shao et al
所属:Stanford Univ
論文のポイント
Wikipedia風の文章をゼロから書くための手法、STORMについての論文
論文を読んで感じたこと
公開から1ヶ月で、GitHub Starsが4000越えとすごい...
実際に記事を確認したが、AIが書いたとは思えない作りで、すごそう。
実際にどうする?
概要
本稿では、大規模言語モデル(LLM)を、Wikipediaページに匹敵する広さと深さを備えた、根拠のある、整理された長文記事をゼロから執筆するためにどのように適用できるかについて検討する。 この未開拓な問題は、執筆前の段階に新しい課題を突きつけており、その中には、執筆の前にトピックを調査し、アウトラインを準備する方法が含まれる。 我々は、検索と多角的な質問を通じてトピックアウトラインを合成するためのSTORMという執筆システムを提案する。 STORMは、執筆前の段階をモデル化し、(1) 与えられたトピックの多様な視点を見つける、(2) 異なる視点を持つ執筆者が、信頼できるインターネットソースに基づいてトピックの専門家に質問を投げかける対話をシミュレートする、(3)収集された情報を整理してアウトラインを作成する。
評価のために、我々はFreshWikiという、最近の高品質なWikipedia記事のデータセットをキュレーションし、執筆前の段階を評価するためにアウトラインの評価を作成する。 さらに、経験豊富なWikipedia編集者からフィードバックを収集した。 アウトライン駆動型の検索拡張ベースラインで生成された記事と比較して、STORMの記事は、整理されていると判断されるものが25%増加し、網羅性の広さにおいては10%増加した。 専門家のフィードバックは、根拠のある長文記事を生成するための新しい課題、例えば、ソースバイアスの転移や関連のない事実にわたる過剰な関連付けを特定する上でも役立つ。
1 はじめに
大規模言語モデル(LLM)は、印象的な執筆能力を実証してきた(Yang et al., 2023; Pavlik, 2023; Wenzlaff and Spaeth, 2022; Fitria, 2023)が、それらを、フルサイズのWikipediaページのような、根拠のある長文記事を執筆するためにどのように使用できるかは不明である。 読者にトピックに関する情報を体系的に伝えることを目的とするこのような説明的な文章(Weaver III and Kintsch, 1991; Balepur et al., 2023)は、執筆前の段階において、実際の執筆プロセスを開始する前にさえ、徹底的な調査と計画を必要とする(Rohman, 1965)。 しかし、Wikipedia記事を生成する以前の研究(Banerjee and Mitra, 2015; Minguillón et al., 2017; Liu et al., 2018; Fan and Gardent, 2022)は、一般的に執筆前の段階を迂回してきた。 例えば、Liu et al. (2018)は、参照文書が事前に提供されていると仮定している一方で、Fan and Gardent (2022)は、記事のアウトラインが利用可能であると仮定し、各セクションの拡張に焦点を当てている。 これらの仮定は、一般的には成立しない。 なぜなら、参照資料を収集し、アウトラインを作成するには、外部ソースを特定、評価、整理するための高度な情報リテラシーのスキル(Doyle, 1994)が必要であり、これは経験豊富な執筆者にとっても難しい作業である。 このプロセスを自動化することで、個人はトピックに関する深い学習を開始し、説明的な文章に必要とされる高価な専門家の時間を大幅に削減できる。
我々は、これらの課題を、Wikipediaのような記事をゼロから生成することに焦点を当てることで調査する。 我々は、この問題を2つのタスクに分解する。 1つ目は、調査を実施してアウトライン(つまり、複数レベルのセクションのリスト)を生成し、参照資料のセットを収集することである。 2つ目は、アウトラインと参照資料を使用して、フルサイズの文章を生成することである。 このようなタスクの分解は、通常は執筆前の段階、下書き、改訂を含む人間の執筆プロセスを反映している(Rohman, 1965; Munoz-Luna, 2015)。
事前学習済みの言語モデルは、本質的に膨大な知識を持っているため、直接的なアプローチとして、これらのパラメトリックな知識に頼ってアウトラインや記事全体を生成する(Direct Gen)というものがある。 しかし、このアプローチは、特に長尾トピックに対処する場合、詳細の不足や幻覚(Xu et al., 2023; Kandpal et al., 2023)に悩まされる。 これは、外部ソースを活用することの重要性を強調するものであり、現在の戦略は、しばしば検索拡張型生成(RAG)を含むが、これは執筆前の段階において、トピックに関する調査の問題に戻ってくる。 なぜなら、単純なトピック検索では、多くの情報が表面化できないからである。
人間の学習理論(Tawfik et al., 2020; Booth et al., 2003)は、情報取得における効果的な質問の重要性を強調している。 指示チューニングされたモデル(Ouyang et al., 2022)は、直接的に質問を生成するように促すことができるが、我々は、それらが通常は「何」、「いつ」、「どこ」という基本的な質問(図1(A))を生成することを見つける。 これらの質問は、しばしばトピックに関する表面的な事実しか扱わない。 LLMに、より良い調査を行う能力を与えるために、我々は、検索と多角的な質問を通じてトピックアウトラインを合成するためのSTORMパラダイムを提案する。
STORMの設計は、2つの仮説に基づいている。(1) 多様な視点は、さまざまな質問につながる。(2) 深い質問を立てるには、反復的な調査が必要である。 これらの仮説に基づいて、STORMは、新しい多段階アプローチを採用する。 最初に、類似したトピックからWikipedia記事を検索して分析し、それらの記事から多様な視点を見出し、次に、特定の視点を持つLLMに擬人化して質問をさせる(図1(B))。 次に、反復的な調査のためにフォローアップの質問を引き出すために(図1(C))、STORMは、生成された質問への回答がインターネットに根ざした、多ターン対話をシミュレートする。 最後に、LLMの内部的な知識と収集された情報に基づいて、STORMは、セクションごとに拡張してフルサイズのWikipediaのような記事を作成できるアウトラインを作成する。
我々は、STORMを、事前学習中にデータリークを防ぐために、最近の、高品質なWikipedia記事をキュレーションした、我々のFreshWikiデータセット(§2.1)を使用して評価する。1 執筆前の段階の研究を促進するために、我々は、人間の執筆記事に対するアウトラインの質を評価するための指標を定義する。
さらに、我々は、経験豊富なWikipedia編集者のグループに、専門家による評価を依頼した。 編集者は、STORMが、特に記事の網羅性と整理という点で、アウトライン駆動型のRAGベースラインよりも優れていることを発見した。 彼らはまた、将来の研究のための課題を特定し、その中には、(1) インターネット上のバイアスが生成された記事に影響を与える場合、(2) LLMが関連のない事実に関連付けを作成する場合、などのケースに対処することなどが含まれる。 これらの課題は、根拠のある執筆システムにとって新しいフロンティアを提示する。
我々の主な貢献は次のとおりである。
LLMシステムが、ゼロから根拠のある長文記事を生成する能力、特に執筆前の段階における課題を評価するために、我々はFreshWikiデータセットをキュレーションし、アウトラインと最終的な文章の質の両方を評価するための評価基準を確立する。
我々は、執筆前の段階を自動化する、新しいシステムであるSTORMを提案する。 STORMは、LLMに鋭い質問をさせ、インターネットから信頼できる情報を取得することで、トピックを調査し、アウトラインを作成する。
自動化された評価と人間の評価の両方で、我々のアプローチの有効性が示されている。 専門家のフィードバックは、根拠のある長文記事を生成する上での新しい課題も明らかにする。
2 FreshWiki
我々は、Wikipediaのような記事をゼロから生成することに重点を置き、情報を収集し、整理する「調査」という、執筆前の段階(Rohman, 1965)における要求の厳しいサブタスクに重点を置く。 これは、人間の執筆アプローチをモデル化したものであり、一部の教育者は、Wikipediaの記事作成を、学術的な訓練のための教育的な演習と見なしている(Tardy, 2010)。
表1は、我々の研究を、既存の文献におけるWikipedia生成のベンチマークと比較したものである。 既存の研究は、一般的に、より狭い範囲(例えば、特定のドメインまたは2つのドメイン)内で、より短いスニペット(例えば、1段落)の生成を評価するか、明示的なアウトラインまたは参照文書が提供されている場合に評価を行っている。 注目すべき例としては、Wikipedia記事の生成を、参照文書を考慮した複数文書の要約問題として扱うWikiSum(Liu et al., 2018)がある。
我々の設定は、長文の根拠のある執筆システムが、コンテンツを調査し、キュレーションする能力を強調している。 特に、トピックtが与えられると、タスクは、参照資料のセットRを見つけ、フルサイズの文章S=s1s2...snを生成することである。 ここで、各文siは、R内の文書のリストを引用する。2
2 実際には、Sには、引用を必要としないセクションやサブセクションのタイトルなどの、組織的な要素も含まれる。
2.1 FreshWikiデータセット
新しいWikipediaのような記事を作成するには、流暢な文章を書くだけでなく、優れた調査スキルも必要である。 近代的なLLMは、一般的にWikipediaのテキストで訓練されているため、我々は、テストするLLMの訓練カットオフ後に作成された(または、非常に多くの編集が加えられた)最近のWikipedia記事を明示的に探し出すことで、データリークを軽減する。 我々のプロセスは、新しいLLMが登場した際に、将来の日に繰り返し実行することができる。
日付の基準を適用するために、我々は、2022年2月から2023年9月までの各月について、編集回数に基づいて最も編集されたトップ100ページに焦点を当てる。3 高品質な参照資料を確保するために、これらの記事をフィルター処理して、ORES4によって評価されたBクラス品質以上のものでのみ残す。 我々はまた、リスト記事5と、サブセクションを持たない記事を除外する。 高品質なWikipedia記事には、通常、構造化されたデータ(例えば、表)が含まれており、マルチモーダルであるが、我々は、タスクを単純化するために、データセットの構築において、プレーンテキストコンポーネントのみを考慮する。 データセットの詳細については、付録Aを参照されたい。
2.2 アウトラインの作成と評価
フルサイズの文章を生成したり、評価したりすることは難しい(Xu et al., 2023; Krishna et al., 2023)。 人間の教育者が学生に学術的な文章を教える際には、学生がアウトライン段階で指導を受ける場合がある(Eriksson and Mäkitalo, 2015)。 なぜなら、広範なアウトラインは、トピックの包括的な理解を示しており、フルサイズの文章を執筆するための堅実な基盤を提供するからである(Dietz and Foley, 2019)。 これに触発されて、我々は、Sの生成を2つの段階に分解する。 執筆前の段階では、システムは、複数レベルのセクション見出しのリストとして定義される、アウトラインOを作成する必要がある。6 執筆段階では、システムは、トピックt、参照資料R、およびアウトラインOを使用して、フルサイズの文章Sを生成する。
アウトラインの網羅性を評価するために、我々は、2つの指標である、見出しのソフトリコールと見出しの実体リコールを導入する。 これらの指標は、人間の執筆記事の見出しを複数レベルで、グランドトゥルースとして、Oの見出しと比較する。 これらの2つの見出しのセットの要素間の完全な一致は不要であることを認識して、我々は、見出しのSentence-BERT(Reimers and Gurevych, 2019)埋め込みから導出されたコサイン類似度を使用して、見出しのソフトリコール(Fränti and Mariescu-Istodor, 2023)を計算する(詳細は付録C.1を参照)。 我々はまた、人間の執筆記事の見出し内の名前付き実体が、Oによってカバーされている割合として定量化される、見出しの実体リコールを計算する。 我々は、FLAIR名前付き実体認識(NER)(Akbik et al., 2019)を使用して実体を抽出する。
6 言語モデルはシーケンスを処理および生成するため、セクションのタイトルを示すために「#」、サブセクションのタイトルを示すために「##」など、Oを線形化することができる。
3 方法
我々は、効果的な質問を立ててトピックを調査し(§3.1、§3.2)、アウトラインを作成することで(§3.3)、執筆前の段階を自動化するSTORMを提案する。 アウトラインは、収集された参照資料に基づいて、フルサイズの文章に拡張される(§3.4)。 図2は、STORMの概要を示し、擬似コードは付録Bに掲載されている。
3.1 視点に基づく質問
Rohman(1965)は、執筆前の段階を、執筆プロセスにおける発見の段階と定義している。 ビジネスにおけるステークホルダー理論(Freeman et al., 2010)と同様に、さまざまなステークホルダーが会社のさまざまな側面を優先するように、異なる視点を持つ個人が、同じトピックを調査する際にさまざまな側面に焦点を当て、多面的な情報を発見することがある。 さらに、特定の視点は、事前に知識として役立ち、より深い質問を立てるためのガイドとなる。 例えば、イベントプランナーは、「2022年冬季オリンピックの開会式」の「輸送手段」と「予算」について尋ねるかもしれないが、一般の人は、イベントの基本的な情報について、より一般的な質問をするかもしれない(図1(A))。
STORMは、入力トピックtが与えられると、類似したトピックから既存の記事を調査することで、さまざまな視点を見出し、これらの視点を使用して質問プロセスを制御する。 特に、STORMは、LLMに関連トピックのリストを生成するように促し、次に、Wikipedia API7を介して取得できる場合、対応するWikipedia記事の目次を抽出する(図2 1)。 これらの目次を連結して、LLMがtに関する包括的な記事に共同で貢献できるN個の視点P={p1, ..., pN}を特定するように促すコンテキストを作成する(図2 2)。 tに関する基本的な情報も網羅されるように、我々は、p0を「トピックに関する基本的な事実を広くカバーすることに焦点を当てた、基本的な事実の執筆者」としてPに追加する。 各視点p∈Pは、並列で質問プロセスにおいてLLMをガイドするために使用される。
3.2 対話をシミュレートする
質問と質問の仕方に関する理論(Ram, 1991)は、既存の質問に対する回答が、トピックのより包括的な理解に貢献する一方で、同時に新しい質問を生み出すことを強調している。 このダイナミックなプロセスを開始するために、STORMは、Wikipediaの執筆者とトピックの専門家の間の対話をシミュレートする。 対話のi番目のラウンドでは、LLMで強化されたWikipediaの執筆者は、トピックt、割り当てられた視点p∈P、および対話履歴{q1, a1, ..., qi−1, ai−1}に基づいて、単一の質問qiを生成する。 ここで、ajは、シミュレートされた専門家の回答を示す。 対話履歴により、LLMはトピックに関する理解を更新し、フォローアップの質問をすることができる。 実際には、対話を最大Mラウンドまで制限する。
対話履歴が事実情報を提供することを保証するために、我々は、インターネットからの信頼できるソースを使用して、各クエリqiに対する回答aiを根拠とする。 qiは複雑になる可能性があるため、最初にLLMに、qiを検索クエリのセットに分割するように促す(図2 4)。 検索された結果は、Wikipediaのガイドライン8に従って、信頼できないソースを除外するために、ルールベースのフィルターを使用して評価される(図2 5)。 最後に、LLMは、信頼できるソースを合成して回答aiを生成し、これらのソースは、フルサイズの文章の生成(§3.4)のためにRにも追加される。
3.3 記事のアウトラインを作成する
N+1個のシミュレートされた対話{C0, C1, ..., CN}を介してトピックを徹底的に調査した後、STORMは、実際に文章を書く前にアウトラインを作成する。 LLMの内部的な知識を最大限に活用するために、我々は、最初に、モデルに、トピックtのみを指定して、アウトラインODを生成するように促す(図2 7)。 ODは、一般的には、一般化されたものの体系的なフレームワークを提供する。 続いて、LLMは、トピックt、アウトラインOD、およびシミュレートされた対話{C0, C1, ..., CN}を使用して、アウトラインを洗練するように促される(図2 8)。 これにより、フルサイズの文章を作成するために使用される、改良されたアウトラインOが得られる。
3.4 フルサイズの文章を執筆する
執筆前の段階で収集された参照資料Rと、作成されたアウトラインOに基づいて、フルサイズの文章は、セクションごとに構成することができる。 通常、R全体をLLMのコンテキストウィンドウに収めることは不可能であるため、我々は、セクションのタイトルとそのすべてのレベルのサブセクションの見出しを使用して、Sentence-BERT埋め込みから計算された意味的な類似度に基づいて、Rから関連する文書を検索する。 関連する情報が得られたら、LLMは、引用付きでセクションを生成するように促される。 すべてのセクションが生成されたら、それらを連結して、フルサイズの文章を形成する。 セクションは並列に生成されるため、我々は、LLMに連結された文章を指定して、重複する情報を削除し、一貫性を向上させるように促す。 さらに、Wikipediaのスタイルガイドラインに従って、LLMは、文章全体の要約を合成して、冒頭にリードセクションを形成するためにも使用される。
4 実験
4.1 記事の選択
STORMは、複雑なトピックを調査し、詳細なアウトラインから長文の記事を執筆することができる。 しかし、この制御された実験では、最終的な出力は、最大4000トークン(約3000語)に制限する。 有意義な比較を行うために、我々は、FreshWikiデータセット(§2.1を参照)から、3000語を超えない人間の執筆記事が100個のサンプルをランダムに選択する。
4.2 自動指標
§2.2で説明したように、我々は、見出しのソフトリコールと見出しの実体リコールを計算することで、執筆前の段階を評価するための指標として、アウトラインの質を評価する。 リコールスコアが高いほど、人間の執筆記事に比べて、より包括的なアウトラインであることを意味する。
フルサイズの文章の質を評価するために、我々は、ROUGEスコア(Lin, 2004)を採用し、FLAIR NERの結果に基づいて、文章レベルで実体リコールを計算する。 さらに、Wikipediaの基準9に基づいて、我々は、(1) 興味レベル、(2) 一貫性と組織、(3) 関連性と焦点、(4) 網羅性、(5) 検証可能性という観点から記事を評価する。 (1)-(4)の観点については、2人の経験豊富なWikipedia編集者と共同で開発された、5段階の評価基準に基づいて、記事を評価する、13B評価器LLMであるPrometheus(Kim et al., 2023)を使用する(詳細は付録C.2を参照)。 検証可能性については、Gao et al. (2023)の定義に基づいて、引用リコールと引用精度を計算する。 我々は、Mistral 7B-Instruct(Jiang et al., 2023a)を使用して、引用された文章が生成された文を包含しているかどうかを調べる。
4.3 ベースライン
以前の研究では、さまざまな設定が使用されており、LLMが使用されていないため、直接比較することは難しい。 代わりに、我々は、次の3つのLLMベースのベースラインを使用する。
Direct Gen: LLMに直接アウトラインを生成するように促し、それを利用してフルサイズの文章を生成するベースライン。
RAG: トピックで検索し、検索された結果とトピックtを併用して、アウトラインや文章全体を生成する検索拡張型生成ベースライン。
アウトライン駆動型RAG(oRAG): アウトラインの作成においてRAGと同じであるが、さらに、セクションのタイトルを使用して追加の情報を検索し、セクションごとに文章を生成する。
4.4 STORMの実装
我々は、DSPyフレームワーク(Khattab et al., 2023)を使用して、ゼロショットプロンプティングでSTORMを構築する。 付録Bには、擬似コードと対応するプロンプトが掲載されている。 STORMにおけるハイパーパラメータNとMは、どちらも5に設定されている。 我々は、質問を立てるためにチャットモデルgpt-3.5-turboを使用し、STORMの他の部分にはgpt-3.5-turbo-instructを使用する。 また、アウトラインの下書きと洗練のために、gpt-4を使用することも実験した(図2 7 - 8)。 報告された結果は、STORMのシミュレートされたトピックの専門家は、You.comの検索API10に根拠を置いているが、提案されたパイプラインは、他の検索エンジンにも対応している。 グランドトゥルースのWikipedia記事は、検索結果から除外されている。
フルサイズの文章の生成については、gpt-3.5は引用付きのテキストを生成する際に忠実ではないため(Gao et al., 2023)、gpt-4を使用した結果のみを報告する。 すべての実験で、温度は1.0、top_pは0.9に設定されている。
5 結果と分析
5.1 主要な結果
我々は、執筆前の段階を評価するための指標として、アウトラインの網羅性を使用する(§2.2を参照)。 表3は、見出しのソフトリコールと実体リコールを示している。 LLMによって直接生成されたアウトライン(Direct Gen)は、すでに高い見出しのソフトリコールを示しており、LLMは、豊富なパラメトリック知識を通じて、トピックのハイレベルな側面を把握できることを示している。 しかし、STORMは、効果的な質問を立ててトピックを調査することで、よりトピック固有の側面を網羅した、より高いリコールのアウトラインを作成することができる。 特に、RAGは追加の情報を活用するものの、コンテキストウィンドウに体系化されていない情報が提示されるため、より弱いモデル、すなわちGPT-3.5では、アウトライン生成がより難しくなり、パフォーマンスが低下する。 RAGベースラインの限界をテストするために、我々は、RAGによって生成されたアウトラインから始めて、そのセクションのタイトルを検索クエリとして使用して、より多くのソースを収集し、新たに収集されたソースと初期のアウトラインをLLMに入力して、洗練されたアウトラインを生成することで、検索されたソースをさらに拡張した。 この修正されたアプローチは、表3では「RAG-expand」と呼ばれている。 実験結果から、検索と洗練の追加ラウンドを行うことで、RAGによって生成されるアウトラインを改善できることは明らかだが、提案されたSTORMは、依然としてそのパフォーマンスを上回っている。
我々はさらに、フルサイズの文章の質を評価する。 表2に示すように、oRAGはRAGよりも大幅に優れており、フルサイズの文章生成のためにアウトラインを使用することの有効性を強調している。 この方法が、検索とアウトラインを活用するという利点を持っているにもかかわらず、我々のアプローチは、依然としてそれを上回っている。 効果的な質問を立てるメカニズムにより、記事は、より高い実体リコールで強化される。 評価器LLMはまた、これらの記事に、興味レベル、関連性と焦点、網羅性という点で、有意に高いスコアを与えている。 それでも、評価器LLMが機械生成テキストを過大評価する可能性があることは認識している。 我々の慎重な人間の評価(§6)は、STORMには依然として多くの改善の余地があることを明らかにしている。
本稿は、主に執筆前の段階に焦点を当てており、引用付きのテキスト生成を最適化していないものの、我々は、我々のアプローチによって生成された文章の引用の質を調べてみた。 表4に示すように、Mistral 7B-Instructは、生成された文章の84.83%が、引用によって裏付けられていると判断している。 付録C.3は、裏付けられていない文章を調査し、主要な問題は、存在しないコンテンツを幻覚するのではなく、不適切な推論や不正確な言い換えによるものであることを明らかにしている。
§3で紹介したように、STORMは、特定の視点を見出し、多ターン対話をシミュレートすることで、LLMに効果的な質問をさせるように促す。 我々は、すべてのバリアントで、生成された質問の合計数が同じになるように制御している。 表3は、アブレーションの結果を示しており、完全なSTORMパイプラインは、最も高いリコールのアウトラインを生成する。 また、「STORM w/o Conversation」は、はるかに悪い結果を与えており、関連する情報を理解することが、効果的な質問を生成するために不可欠であることを示している。 さらに、さまざまなバリアントを介して、Rにいくつのユニークなソースが収集されているかを調べる。 表5に示すように、完全なパイプラインは、より多くの異なるソースを発見し、その傾向は、アウトラインの品質に関する自動指標と一致している。
また、STORMでアウトライン段階が本当に必要かどうかを確認した。 表2で、「STORM w/o Outline Stage」は、トピックとシミュレートされた対話が与えられた、文章全体を生成した結果を示している。 アウトライン段階を削除すると、すべての指標でパフォーマンスが大幅に低下する。
6 人間の評価
STORMの長所と短所をより深く理解するために、我々は、10人の経験豊富なWikipedia編集者と協力して、人間の評価を実施する。 我々は、データセットから20のトピックをランダムにサンプリングし、我々の方法と、自動評価で最も優れたベースラインであるoRAGによって生成された記事を評価する。 各記事のペアは、2人の編集者に割り当てられる。
我々は、編集者に、§4.2で定義された同じ5つの側面から、各記事を判断するように求めるが、より詳細な評価のために、1から7までのスケールを使用する。 我々の自動評価では、引用の質を、検証可能性を評価するための指標として使用しているが、人間の評価では、Wikipediaの「オリジナルリサーチではないことを検証可能」という標準に準拠する。 編集者は、記事の評価に加えて、オープンエンドのフィードバックとペアワイズの好みを提出する。 評価が完了すると、さらに、編集者に、自分がレビューしたばかりの、我々の方法によって生成された記事とその人間の執筆による対応記事を比較し、1から5までのリッカート尺度を使用して、STORMの認識された有用性を報告するように求める。 人間の評価の詳細については、付録Dを参照されたい。 表6は、評価結果とペアワイズ比較の結果を示している。11
STORMによって生成された記事は、oRAGの出力よりも、広さと深さにおいて優れている。 §5.1で見られた発見と一致して、編集者は、STORMによって生成された記事を、oRAGの出力よりも、より興味深く、整理され、網羅性が高いと判断している。 特に、STORMによって生成された記事の25%が、整理されているとみなされており(組織の評価が4以上)、10%が、網羅性が高いとみなされている(網羅性の評価が4以上)。 さらに、人間の執筆記事と比較しても、ある編集者は、我々の結果について、「Wikipedia記事よりも少し多くの背景情報が得られた」と賞賛し、別の編集者は、「AI記事は、Wikipedia記事よりも深みがあった」と指摘している。 STORMは、ペアワイズ比較においても、最も優れたベースラインを上回っている。 |R|の増加は、事実の幻覚を超えた課題を突きつけている。 我々は、編集者がoRAGの出力の方がSTORMの出力よりも良いと判断した、14個のペアワイズ比較の回答を調べた。 ペアワイズの好みが、評価と一致していない3つのケースを除外すると、編集者は、我々のアプローチから生成された記事の検証可能性のスコアを、50%以上のケースで低く評価している。 記事と編集者の自由記述のフィードバックを分析することで、検証可能性のスコアが低い理由は、赤 herring fallacyまたは過剰な推測による問題であることがわかる。 これらは、生成された記事が、|R|内のさまざまな情報の断片間、または情報とトピック間の関連付けられない関連付けを紹介する場合に発生する(例は表11に掲載)。 広く議論されている事実の幻覚(Shuster et al., 2021; Huang et al., 2023)と比較して、このような検証可能性の問題に対処するには、基本的な事実確認(Min et al., 2023)を超えた、より微妙なアプローチが必要となる。 生成された記事は、十分に改訂された人間の作品に遅れをとっている。 STORMはoRAGベースラインを上回っているものの、編集者は、生成された記事は、実際のWikipediaページほど情報量が少ないとコメントしている。 特定された別の主要な問題は、インターネットソースから生成された記事へのバイアスとトーンの転移であり、10人の編集者のうち7人が、STORMで生成された記事は「感情的」または「中立ではない」と述べている。 詳細な分析については、付録Eを参照されたい。 このフィードバックは、執筆前の段階における検索のバイアスを減らすことが、将来の研究にとって有望な方向であることを示唆している。 生成された記事は、良い出発点である。 図3に示すように、編集者は、STORMが執筆前の段階を支援するのに役立つことに全員一致している。 このツールが、経験豊富な編集者に役立つことを知るのは喜ばしいことである。 編集者の80%は、STORMが、新しいトピックのWikipedia記事を編集するのに役立つと考えている。 STORMが、Wikipediaコミュニティ全体にとって役に立つのかについては、より多くの留保がある。 それでも、編集者の70%は、STORMが役に立つと考えており、わずか10%が反対している。
7 関連研究
推論時に検索を言語モデル(LM)に追加することは、外部の知識ストアを活用する典型的な方法である(Ram et al., 2023; Izacard et al., 2023)。 一部の研究では、検索を使用して、インコンテキスト学習のためのデモを構築している(Li et al., 2023; Liu et al., 2022; Agrawal et al., 2023; Poesia et al., 2022; Shi et al., 2022; Khattab et al., 2022)が、別の研究では、検索を使用して、LMが根拠を置くための追加情報を提供している。 Lewis et al. (2020)は、知識集約的なNLPタスクにおけるRAGを研究し、それが多様性と事実性を向上させることを発見している。 Semnani et al. (2023)は、英語のWikipediaに根ざした、RAGベースのチャットボットを設計し、LLMベースのチャットボットが幻覚を起こすのを防いでいる。 さらに、RAGは、引用付きのテキストを生成したり(Menick et al., 2022; Gao et al., 2023)、属性付きの質問応答システムを構築したり(Bohnet et al., 2023)するために使用できる。 RAGは、質問応答において広く研究されているが、長文記事を生成するためにどのように使用できるかは、あまり研究されていない。
一般的なフレームワークとして、RAGは、検索ソースと時間において柔軟性がある。 検索ソースは、ドメインデータベース(Zakka et al., 2023)、コードドキュメント(Zhou et al., 2023)、インターネット全体(Nakano et al., 2022; Komeili et al., 2022)など、さまざまにわたる。 時間に関しては、生成前に一度だけ検索するのではなく、システムは、生成中にいつ検索するかを自己決定するように設計することもできる(Jiang et al., 2023b; Parisi et al., 2022; Shuster et al., 2022; Yao et al., 2023)。
自動的な説明的な文章
他の種類の長文生成(Yang et al., 2022; Feng et al., 2018)とは異なり、自動的な説明的な文章は、外部の文書に根拠を置き、読み書きの相互作用を活用する必要がある。 Balepur et al. (2023)は、複数ソースから情報を合成する課題に対処するために、段落レベルで説明的な文章を記述するための、模倣-検索-言い換えフレームワークを提案している。 ソースを要約するだけでなく、Shen et al. (2023)は、説明的な文章には、ソース文書に対する著者の意味理解プロセスと、優れたアウトラインの計画が必要であることを強調している。 我々は、これらの課題を、執筆前の段階に焦点を当てることで対処する。
NLPにおける質問
NLPシステムにおける質問能力は、ユーザーの意図を理解するための明確化質問の生成(Aliannejadi et al., 2019; Rahmani et al., 2023)や、合成的な推論を改善するための大きな質問を小さな質問に分割すること(Press et al., 2023)など、さまざまな面で拡大している。 人間は通常、新しい知識を学ぶために質問をする(Tawfik et al., 2020; Booth et al., 2003)が、情報探索の対話における質問の有益さと特異性をどのように最適化するかは、あまり研究されていない。 最も近い研究は、Qi et al. (2020)であり、質問の有益性を、ユニグラム精度関数を使用して定義し、強化学習を使用して質問の有益性を高めている。
8 結論
我々は、Wikipediaのような記事をゼロから作成するための、執筆前の段階を自動化する、LLMベースの執筆システムであるSTORMを提案する。 我々は、FreshWikiデータセットをキュレーションし、根拠のある長文記事の生成を調査するための評価基準を確立する。 実験結果から、STORMの質問を立てるメカニズムは、アウトラインと文章の品質の両方を向上させることが明らかになった。 網羅性と深みが向上したことにより、STORMは、専門家の評価を通じて、根拠のある執筆システムにとって新しい課題を明らかにするのに役立つ。 我々の研究に参加した経験豊富なWikipedia編集者は、STORMが執筆前の段階に役立つことに全員一致している。
制限事項
本稿では、自動的な説明的な文章と長文記事の生成のフロンティアを押し上げる方法として、Wikipediaのような記事をゼロから生成することを調査している。 我々のアプローチは、自動化された評価と人間の評価の両方において、ベースラインの方法を大幅に上回っているものの、機械で書かれた文章の質は、特に中立性と検証可能性という点で、十分に改訂された人間が執筆した文章に依然として遅れをとっている。 STORMは、与えられたトピックのさまざまな視点を見つけるものの、収集された情報は、インターネット上の優勢なソースに偏っている可能性があり、宣伝的なコンテンツを含んでいる可能性もある。 さらに、本稿で特定された検証可能性の問題は、事実の幻覚を超えたものであり、これは、根拠のある執筆システムにとって新しい課題を浮き彫りにしている。
本稿のもう1つの制限は、Wikipediaのような記事をゼロから生成するタスクに焦点を当てているものの、タスク設定はまだ、自由形式のテキストの生成のみを考慮するよう簡略化されている点である。 人間の執筆による高品質なWikipedia記事には、通常、構造化されたデータとマルチモーダルな情報が含まれている。 マルチモーダルな根拠のある文章を生成することの調査は、将来の研究のための課題である。