Re-Reading論文
https://scrapbox.io/files/65a77bf0c8bf29002551c9de.png
論文情報
タイトル:Re-Reading Improves Reasoning in Language Models
発行日:2023年9月
著者:Xiaohan Xu, Chongyang Tao, Tao Shen, Can Xu, Hongbo Xu, Guodong Long, Jian-guang Lou
所属:Institute of Information Engineering, CAS, Microsoft Corporation
論文のポイント
なぜ再読戦略が有効なの?
2つ考えられる
i) LLMのTransformerデコーダーアーキテクチャは、一方向の注意メカニズムを持つため、暗黙の再読能力が妨げられるため ii) LLMにプロンプトを行う入力情報は、テキスト、背景情報、外部知識、中間の根拠、Few-Shotのデモンストレーションなどを含む複雑なものになる可能性があり、元のターゲットクエリを圧倒することがあるため つまり、プロンプトの文脈を再評価し、理解を洗練させ誤解を修正すると考えられる
数学推論タスクでの再読の効果 (GPT-3.5-Turbo)
https://scrapbox.io/files/65c31298d899e10026550df8.png
なぜ、vanilla + RE2で精度が落ちたか?
RE-Readingを使うと、よりクエリにより注意を払わせるので、暗黙的なCoTへの注意が散漫になる
それゆえに、明示的にCoTを指定すれば、性能は上がるがしないとしないと性能が落ちる
常識/記号推論タスクでの再読の効果(GPT-3.5-Turbo)
https://scrapbox.io/files/65c31f25c92ff90024b575c9.png
数学推論タスクと同様で、step by stepをつけないと、性能が低下するタスクがあった。
質問を何度も繰り返すと、悪化する。再読は1-2回がベスト
https://scrapbox.io/files/65a7e0cec249280024f8df6e.png
(m=1は、再読なし)
複雑な質問(推論が4step以上必要な質問)では精度が上がるが、簡単な質問(推論のステップが3以下)では精度が落ちる
https://scrapbox.io/files/65a7e582d75bf90024dc1217.png
"質問をもう一度読んでください:"という指示が、最もパフォーマンスが良い
https://scrapbox.io/files/65a7e8e076b09e00238a453a.png
論文を読んで感じたこと
3章のmethodology意味不明だった
Vanilla Prompt + RE2の結果が悪くなっている。
実際に使うときはどうする?
簡単な推論の問題には、使わない。
custom instructionsに入れない。プロンプトの指定が難しい。
それゆえ、推論問題で性能が悪い時の選択肢の1つとして持っておく
具体的なプロンプトフォーマットの例
https://scrapbox.io/files/65b9a908e2621300242d18ff.png
code:markdown
Q: {質問}
質問をもう一度読む: {質問}
A: ステップバイステップで考えてみましょう。
実際のプロンプトの例
code:md
Q:ロジャーはテニスボールを5個持っている。彼はさらに2つのテニスボール缶を買った。それぞれの缶には3個のテニスボールが入っている。彼は今何個のテニスボールを持っていますか?
質問をもう一度読む:ロジャーはテニスボールを5個持っている。彼はさらに2つのテニスボール缶を買った。それぞれの缶には3個のテニスボールが入っている。彼は今何個のテニスボールを持っていますか?
A: ステップバイステップで考えてみましょう。
概要
推論は、大規模言語モデル(LLM)にとって重要かつ難しい問題です。研究の主要な焦点は、LLMの推論プロセスをガイドし、構造化するための多様なプロンプト戦略の開発に回っています。しかし、デコーダのみの因果言語モデルに基づくこれらのアプローチは、入力された質問を1回のフォワードパスで処理することが多く、人間の推論に固有の豊かな前後の相互作用を見逃す可能性があります。プロンプト内に埋め込まれた入力質問という重要な次元にはほとんど注意が払われていません。これに対応して、私たちは単純ながら非常に効果的なプロンプト戦略を導入します。これは、質問の「再読」(re-reading)と呼ばれます。人間の学習や問題解決から着想を得て、再読は入力プロンプト内に埋め込まれた質問情報を再訪することを含みます。このアプローチは、強化という認知原則とシームレスに一致し、LLMがより深い洞察を抽出し、複雑なパターンを特定し、より微妙な接続を確立し、最終的に様々なタスクでの推論能力を強化することを可能にします。一連の推論ベンチマークにおける実験は、私たちの方法の効果と一般性を強調します。さらに、私たちの発見は、様々な言語モデル、思考を促すプロンプト方法、アンサンブル技術とシームレスに統合されることを示し、LLMの領域でのその多様性と互換性をさらに強調しています。
はじめに
人工知能の進化する風景の中で、大規模言語モデル(LLM)は自然言語理解と生成の基盤として台頭しました。しかし、これらのモデルが規模と複雑さで成長するにつれて、重要な課題が前面に出てきました:それらに効果的な推論能力を吹き込むことです。確固たる推論を行う能力は、人間の知能の特徴であり、我々が推論し、推測し、問題を解決することを可能にします。LLMでは、このスキルは多様なタスクでの実用的なユーティリティを高めるために不可欠です。その顕著な能力にもかかわらず、LLMは微妙な推論にしばしば苦慮し、研究者たちは推論能力を強化するための革新的な戦略を模索しています。
ここに私たちのアプローチの基盤があります。私たちは、単純なようでありながら深く効果的なプロンプト戦略を提案します:再読、または短くRE2と呼ばれます。人間の学習と問題解決プロセスから着想を得て、私たちは入力プロンプトに埋め込まれた質問情報を再訪することで、コンテキストを再評価し、理解を洗練させ、潜在的な誤解を修正すると考えます。この戦略は強化という認知原則と一致し、モデルが問題への初期理解を反復的に構築することを可能にします。入力を複数回通過することで、モデルはより深い洞察を得ることができ、複雑なパターンを特定し、より微妙な接続を構築することができます。これは、推論の結果を高めるのに貢献します。私たちの再読メカニズムは、複数段階のプロンプトを使用して推論を行うか、生成品質を向上させるために複数の推論パスをサンプリングする既存のアプローチよりもはるかに単純です。さらに、私たちの再読は、事前訓練された様々な言語モデルやプロンプト戦略と「プラグアンドプレイ」モジュールとしてオフ・ザ・シェルフ(特別な設定なくさっと使える)で動作し、複雑なプロンプトやサンプリングの段階を避けます。
私たちが提案する再読戦略の効果を実証するために、算数、常識、記号的推論を含む様々な推論タスクにわたる包括的な実験シリーズを実施しました。私たちの評価は、質的および量的な評価を含み、再読戦略を装備したLLMのパフォーマンスを従来のおよび現代のプロンプト技術と比較しました。私たちの研究の結果は注目すべき傾向を示しています:再読戦略を採用したモデルは、特にCoTプロンプト方法に適用した場合、ほとんどのデータセットで推論パフォーマンスのかなり一貫した改善を示しています。さらに、広範な実験により、私たちの再読戦略は様々なプロンプト方法全体に一般的に拡張可能であり、Self-Consistencyアプローチとも互換性があることが示されています。 2 関連研究
大規模言語モデルによる推論
LLMは、人工一般知能(AGI)への道のりにおいて重要なマイルストーンを表しています。その顕著な能力は、生成的な方法で動作する統一された自然言語インターフェースを介して、幅広いタスクにわたっています。ここでは、人工知能が人間のように行動したり考えたりする必要があるAGIに向けて、推論能力が特に重要です。LLMに関する文献では、自然言語での対話を通じて推論タスクを実行することが、LLMを評価する上で重要な役割を果たし、学界と産業界が多くの努力をしています。原則として、大規模言語モデルでの推論に関するほとんどの研究は、「CoT (Chain-of-Thought)」のパラダイムに分類される可能性があり、中間ステップを明示的に生成することでLLMが複雑な推論タスクを達成するのを支援します。したがって、ほとんどの努力は、以下の側面で基本原則を改善することに捧げられています: i)「チェーン」の構造、例えば、木、グラフ;
ii) チェーンのモダリティ、例えば、プログラム;
これに対して、私たちのLLM向けの単純な再読戦略は、中間ステップとクエリ自体との間のトレードオフを通じてこれらの改善と直交しています。その上、我々の再読み込み戦略は、CoTから答えが圧倒的に導きだされるが、元のクエリを見落とすことを防ぐことにより、多くの先行研究を補完するものである。
テキスト理解における再読戦略
ディープラーニングにおいて、テキスト理解タスクの成功は、人間の読書戦略のヒューリスティックつまり、読前、読書中、および読後の考察に依存しています。具体的には、再読のアイデアを中心に多くの効果的なアルゴリズムが作られています。多層Bi-LSTMからトランスフォーマーエンコーダーまでの深いアーキテクチャには、「再読」の形を提供するメカニズムがありますが、入力を一度だけ処理するだけでは、複雑な出力の理解または生成に十分ではないという概念は長い間存在しています。当初、繰り返し読み取りメカニズムが、感情分析、意味関係分類、イベント抽出などのいくつかのタスクでパフォーマンスを向上させることを発見しました。その後、繰り返し読み取り戦略を模倣し、多レベルの注意を持つニューラルネットワークを提案し、これが暗黙の談話関係を認識するのに効果的であることが証明されました。続いて、読書行動の習慣をモデル化する多視点メカニズムを提案し、これが幅広いタスクに有益であることを示しました。最近では、段落の要点をエンコードするためのネットワークと、注意深い読書のための意思決定ポリシーを採用し、これが抽出型要約を改善することができることを示しました。したがって、大規模言語モデルに再読戦略を導入することは自然です。なぜなら、
i) LLMのTransformerデコーダーアーキテクチャは、一方向の注意メカニズムを持つため、暗黙の再読能力が妨げられるため ii) LLMにプロンプトを行う入力クエリとコンテキストは、ストリーム化されたテキスト、背景情報、外部知識、中間の根拠、Few-Shotのデモンストレーションなどを含む複雑なものになる可能性があり、元のターゲットクエリを圧倒することがあるためです。 指示に従う
複雑なコンテキストと難しいクエリを持つプロンプトを処理するために、特にZero-Shotのシナリオで期待されるように動作するためには、LLMにとって指示に従う能力が基本的です。直接的な解決策は、複雑で、困難で、リッチな制約を持ち、特定のプロンプト、例えば、検索認識型、困難、複雑、マルチスキルなどをLLMと一致させるために、教師付きのファインチューニングデータセットを構築することです。これらの方法は、対応する側面でLLMのパフォーマンスを向上させます。しかし、入力の特定の部分へのバイアスで訓練されているため、LLMが内在するコンテキストに従うという課題は依然として存在します。例えば、前面&後部。中間ステップ(例えば、CoT)を用いた推論に関する文献では、思考のチェーンが、誤った理由や偽の理由を含む場合があり、このような失敗の理由が答えを導き出すステップをコントロールし、誤った答えにつながる可能性があります。これは、元のクエリへの露出を増やすために、この作業を動機付けています。 知識の思い出し
情報探索の観点から見ると、LLMへのプロンプトは、パラメトリックな方法での「知識の思い出」の一種と見なすことができます。ここでは、プロンプトは検索クエリと見なすことができます。従来の非パラメトリック検索 – 例えばベクトルデータベースとは対照的に、LLMはニューラル知識モデルとして、膨大な知識範囲で容易に一般化することができ、広範囲のアプリケーションでの効果に貢献します。CoTベースの推論の文脈では、LLMがトレーニング中に特定のCoTにさらされ、知識の思い出によって推論を容易に完了できると推測しています。そのため、基本的だが一般的な用語ベースの検索ドメインの検索拡張技術を適応し、拡張部分で元のクエリを複数回繰り返すことを、LLMへのプロンプトに導入することは自然です。
3 方法論
私たちは、自然言語処理(NLP)および自然言語理解(NLU)タスクの一般的な解決策としてLLMを活用するための統一された公式化から始めます。 https://scrapbox.io/files/65a78e442db82e002432d1cc.png
https://scrapbox.io/files/65a78e5454c28e00238e7341.png
https://scrapbox.io/files/65a78e5cc2ffdc0024ce480c.png
4 実験
我々は、さまざまな推論評価を通じて提案された再読プロンプトの有効性を確認するための一連の実験を行いました。私たちの研究結果は、モデルスケールとプロンプト方法の幅広い範囲にわたって、再読は一般的に言語モデルにおける推論の正確性を向上させることを示しています。
4.1 ベンチマーク
我々は、さまざまな推論ベンチマークを通じて、再読プロンプト戦略の効果を評価しました。私たちの評価は3つの主要なカテゴリーを含んでいます:
算数推論
我々は以下の7つの算数推論問題ベンチマークを考慮しました:
(2) 構造が異なる数学的言語問題のSVAMPデータセット、 (3) 多様な数学的言語問題のASDivデータセット、 (5) 3年生、4年生、5年生のための加算と減算に関する数学的言語問題のAddSub、 常識的および記号的推論
常識的推論タスクには、CommonsenseQA、StrategyQA、AI2 Reasoning Challenge(ARC-C)を使用しました。CommonsenseQAデータセットは、正しい答えに到達するためにさまざまな形式の常識的知識を必要とする多肢選択式の質問で構成されています。StrategyQAベンチマークデータセットは、推論ステップが暗黙のままであり、推論を必要とする多段階推論の質問で構成されています。ARCデータセット(ARC-tと表記)は、小学校レベルの質問向けに設計され、高度な質問応答研究を促進しています。これは、2つのセットに分かれています:チャレンジセット(ARC-cと表記)は、検索ベースおよび単語共起アルゴリズムが正しく答えられなかった質問を含み、イージーセット(ARC-e)です。我々は2つの記号的推論タスクを評価します:Date UnderstandingとCoin Flip。Date UnderstandingはBig-Benchデータセットの一部であり、これまでのファインチューニング努力にとって挑戦となってきました。コインフリップは、質問内のステップに基づいて、コインが裏返されたかどうかについての質問のデータセットです。 4.2 言語モデルと実装
我々の実装では、通常とCoTの2つの基本プロンプト方法において、RE2モデルのパフォーマンスを厳密に評価しています。通常のアプローチは、言語モデル(LLM)から思考を引き出すための特定のプロンプトを使用しない標準的なプロンプト方法に沿っています。逆に、CoT方法は、モデルをステップバイステップの思考プロセスを通じて導きます。我々は、RE2戦略をこれらの基本方法に組み込んでその影響を評価し、通常+RE2およびCoT+RE2として示しています。数発設定におけるデモンストレーションによって導入されたランダム性の影響を避けるため、我々はゼロショット設定で我々の方法を評価しています。さらに、異なるタスクについて、正確な回答抽出を容易にするために、プロンプトに回答形式の指示を設計しています。プロンプト方法と回答形式の指示に関する詳細な情報は、論文の付録に記載されています。
さらに、我々は、セクション4.4で詳述されているように、再読メカニズムを様々な思考を引き出すプロンプト戦略と併用する効果を調査しています。我々のデコード戦略には、温度設定0の貪欲なデコーディング戦略と、温度設定0.7のSelf-Consistencyプロンプトが含まれています。これらの実験には、通常、CoT、通常+RE2、CoT+RE2を含むすべてのプロンプト方法で、2つの強力なバックボーン、ChatGPT(GPT-3.5-turbo-0613)とdavinci-003(text-davinci-003)を使用しています。 4.3 評価結果
表1は、我々の方法と既存のゼロショット技術の算数推論データセットにおける包括的なパフォーマンス比較を示しています。我々の分析によると、再読による算数推論の一貫した強化が明らかになり、davinci-003モデルを使用するとほぼすべてのベンチマークでCoTプロンプトと通常のプロンプトの両方を明らかに上回っています。
https://scrapbox.io/files/65c31421684b900025910cbb.png
さらに、ChatGPTに適用された場合、再読は、CoTプロンプトと組み合わせると、ほとんどのデータセットで算数推論パフォーマンスの大幅な改善を示しています。ただし、バニラプロンプト戦略では、AQUA、MultiArith、SingleEQ、およびAddSubを含むいくつかのベンチマークで、我々の方法により顕著なパフォーマンス低下が見られます。
https://scrapbox.io/files/65c31298d899e10026550df8.png
https://scrapbox.io/files/65a795b8014ff700243eccf6.png
このケースは、一部の既存のLLMが、クエリ理解能力を高めるためにユーザーの指示を再話したり言い換えたりするように訓練されていることを証明しています。これは、我々の方法と高いレベルでのインスピレーションを共有していますが、この能力を獲得するために高い学習コストを必要とします。そのため、指示の再話マインドセットと我々の再読戦略とのオーバーレイは、ユーザーの指示の繰り返しがより頻繁に起こることにつながります。§4.4の最初の部分(つまり、質問の読み返し回数)で分析され、表3で実証されているように、質問を何度も繰り返すと結果が悪化するため、ここでの実験結果と密接に一致しています。
ChatGPTは、Insturction FineTuningとRLHFですでに、CoT(Chain of Thought)が学習されており、ChatGPTは指示が与えられていなくても、ほとんどの質問に対して自発的にCoTステップを生成し、高品質な回答を生み出す。
そして、Instruction FineTuningされた数学の推論のCoTのタイプは、プロンプトで明示的に指定するCoTよりも正成績がよく、同時に同じようなCoT指示を出してしまうと、このすでに事前学習されたCoT指示が曖昧になってしまい劣化につながるだろうと推測している。
そのため、通常のChatGPTは、特定の指示なしでCoTを思い出す傾向があります。明示的なCoT指示が、通常のプロンプトに比べて時には悪い結果をもたらすことを発見しました。したがって、我々のRe-Readingプロンプトを導入すると、クエリ自体に注意が向けられるため、CoTの想起メカニズムと密接に整合しない可能性があり、暗黙のCoTインストラクションが散漫になる可能性がある。davinci-003もInstruction Tuningトレーニングを受けていますが、バニラdavinci-003の生成された出力はCoTの説明が不足している傾向にあることに注意する価値があります。説明が欠けている場合、問題の理解がさらに重要になります。その結果、再読戦略の採用は、このシナリオにおいてパフォーマンスを高める大きな可能性を示しています。 表2は、常識的推論と記号的推論の評価結果を示しています。我々は、算数推論タスクの場合と同様に、一般的に一貫したパフォーマンス傾向が見られ、特にdavinci-003とCoT方法を使用したChatGPTで顕著です。
https://scrapbox.io/files/65a7de9c95c12200240792ee.png
4.4 議論
質問の読み返し回数
我々は、質問の再読回数が推論パフォーマンスに与える影響についてさらに詳細に検討します。表3は、2つの異なる言語モデルのパフォーマンスが、質問の再読回数に応じてどのように進化するかを示しています。すべてのモデルに共通するパターンが浮き彫りになります:パフォーマンスは再読回数が2または3に達するまで向上し、その後は質問の再読回数が増えるにつれて低下し始めます。質問を何度も読むことによる劣ったパフォーマンスの理由は2つあります:
i)質問を無理やり繰り返すことは、LLMの背後にある自己注意メカニズムに干渉し、質問にのみ過剰に注意を払うことにつながる可能性があります。
ii)質問を繰り返すことで、我々の推論と事前トレーニング/アライメント(直感的には、学習コーパスでは、キーパートを強調するために質問を2回繰り返すことが通常ですが、それ以上はありません)の間でLLMの不整合が著しく増加します。特筆すべきは、ほとんどのシナリオで質問を2回読むことが最適であることであり、これが我々が論文で「再読」という用語を使用する理由です。
https://scrapbox.io/files/65a7e0cec249280024f8df6e.png
思考を引き出すプロンプト戦略との互換性
以前の方法と比較して、LLMから出力に思考を引き出そうとする我々のRE2は、入力の双方向理解を強調しています。そのため、我々は提案された再読メカニズムが、CoT以外の様々な思考を引き出すプロンプト戦略と効果的に機能するかどうかを探求することに興味を持っています。これを調査するために、我々はPlan and SolveとPAL (プログラム支援言語モデル)という最近導入された2つのプロンプト方法に再読を適用しました。前者はタスク全体を小さなサブタスクに分割するプランを考案し、後者は中間推論ステップとしてプログラムを生成します。我々は、式7のプロンプトに従って、これら2つの方法に直接再読を適用しました。 https://scrapbox.io/files/65a7e20b26a1720024d503cd.png
https://scrapbox.io/files/65a7e25c48c88500253589a2.png
自己整合性との互換性
既存の研究では、CoT (Chain-of-Thought)アプローチは、複数の生成された回答から最も多い最終回答を集約するSelf-Consistencyメソッドを採用することで強化できることが示されています。我々は、提案された再読メカニズムをこの方法でさらに強化する可能性にも興味を持っています。その結果、我々はGSM8Kベンチマークで再読と自己整合性アプローチの統合をテストする実験を実施し、その結果は表5に示されています。我々の発見は、自己整合性が両方のプロンプト方法のパフォーマンスを著しく向上させることを示しています。自己整合性が複数の回答を集約するにもかかわらず、我々の再読メカニズムは、ほとんどのシナリオで改善に寄与し、自己整合性アプローチとの互換性を示しています。 https://scrapbox.io/files/65a7e3a7acd2860023ef5ae6.png
異なる質問の複雑さにおけるパフォーマンス
さらに、CoTとCoT+再読(CoT+RE2と呼ぶ)の両方の推論パフォーマンスに対する入力質問の複雑さの影響を調査しました。以下に従い、我々はGround Truth Answerに存在する推論ステップを参照して質問の複雑さを測定します。 https://scrapbox.io/files/65a7e77db2b3f300254c3825.png
Figure 1は、これらのモデルのパフォーマンスが様々な質問の複雑さに応じてどのように進化するかを示しています。我々の発見は顕著な傾向を明らかにしています:すべてのモデルのパフォーマンスは一般的に質問の複雑さが増すにつれて減少し、現在のモデルは依然として複雑なクエリの処理に苦労していることを示唆しています。特筆すべきは、再読戦略を採用すると、複雑さが低い質問(<=3)でわずかなパフォーマンス低下が見られる一方で、再読の導入は、より複雑な質問(例えば、複雑さレベルが5を超えるもの)でのパフォーマンスを大幅に向上させます。この観察は、より複雑な質問に対する質問理解と推論能力を向上させるために、再読戦略を採用する利点を強調しています。
https://scrapbox.io/files/65a7e582d75bf90024dc1217.png
異なる再読指示の影響
さらなる実験を行い、CoT (Chain-of-Thought)の文脈での再読指示の影響を調査しました。具体的には、質問の再読に対するさまざまな指示を比較することから調査を開始しました。表6のP1とP2に示されているように、"質問をもう一度読んでください:"というフレーズを含む指示P1は、質問を直接2回繰り返すよりも優れたパフォーマンスを示しています。これらの結果は、言語モデルにより詳細な再読指示を提供することが有利であることを示唆しています。その後、チェーンオブソートの指示("一歩ずつ考えましょう"として参照)のための再読の導入可能性を探りましたが、P3とP4で例示されています。しかし、思考プロセスを2回繰り返しても、顕著な利点は得られませんでした。この側面は本論文の主な焦点ではないため、将来の研究活動に委ねられています。一般に、質問の再読は、質問の再読なしで標準的なチェーンオブソートプロンプト(P0)と比較して、一貫して推論パフォーマンスを向上させることに注意が必要です。 https://scrapbox.io/files/65a7e8e076b09e00238a453a.png
ケーススタディ
このセクションを終えるために、我々が提案した再読プロンプトがチェーンオブソートよりも効果的であることを示すケーススタディを行います。我々はGSM8Kから2つの例を選び、その結果は表7-8にリストされています。 https://scrapbox.io/files/65a7e9c485d3ea0022060526.png
我々の方法は、質問内の証拠を対応する説明ヒントとより適切に整合させることができることが明らかです。CoT+RE2は、説明を生成する前に質問内の重要な証拠を強調する傾向があります。たとえば、表7の「朝には15カップの餌を与え、午後にはさらに25カップを与えます。だから...」や表8の「ボーナスは1ヶ月分の給料の半分に相当します。これは...」などです。この観察をさらに検証するために、出力説明と入力質問との間のn-gramリコールを計算しました。Figure2に示されています。結果は、RE2が出力説明のn-gram(n=1,2,3,4)リコールを確実に改善していることを示しており、我々の方法が推論プロセス中に質問に対するモデルの焦点をある程度強化する方法を強調しています。付録にはより多くの例が提供されています。 https://scrapbox.io/files/65a7eaf0acd2860023ef971b.png
5 結論と今後の研究
この論文では、RE2プロンプトの概念、特に「再読」に焦点を当てて探求しました。この方法は、言語モデルの推論能力を強化するための直接的で幅広く適用可能なアプローチとして際立っています。特に、RE2はデコーダーのみの因果言語モデルの文脈において、質問の双方向理解を促進するのに役立ちます。重要なのは、それが他の思考を引き出すプロンプト戦略やアンサンブル技術とは独立して機能することです。我々の広範な実験は、算数、常識、記号推論タスクをカバーしました。これらの実験は、RE2の有効性と汎用性を確認し、特にCoTのような他の思考を引き出すプロンプト戦略と併用した場合のパフォーマンスに重点を置いています。我々の発見は、研究コミュニティに、思考を引き出すプロンプト戦略の探求を補完し、入力質問のより深い理解に焦点を当てるよう促しています。
今後の研究
我々のRE2方法は、ゼロショット設定での幅広いタスクで称賛に値するパフォーマンスを示していますが、我々の進行中および将来の研究活動は、その能力をさらに拡張することを目指しています。これには、(1) 利用されるバックボーンの拡張が含まれます。これには、Llama1、Llama2、Falcon などの事前訓練された大規模言語モデル、およびVicunaやLlama2-ChatなどのチャットベースのLLMが、さまざまなモデルサイズで含まれる可能性があります。 (2) より一般的なプロンプトタスクや数発推論シナリオでの方法の有効性を調査する。 (3) 特に対話型または画像とテキストのペアワイズ組み合わせを含むマルチモーダルタスクへの適用可能性を探る。これらの今後の研究の方向性は、RE2の潜在的な可能性を深く理解し、自然言語理解の課題に対するその有用性をより広範囲に拡大することを目的としています。