プロンプトの入力が長くなると推論能力が低下する
https://scrapbox.io/files/662214ea125859002616df9f.png
論文情報
タイトル:Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
発行日:2024年2月
著者:Mosh Levy, Alon Jacoby, Yoav Goldberg
所属:Bar-Ilan University
論文のポイント
入力長がLLMのテキストに対する推論能力に、どのように影響するかを検証した論文
FLenQAというデータセットを開発し、以下の3つのタスクについて、それぞれ100のサンプルを作成している Ruletaker (ルールテイカー)
各サンプルは、2つの重要な段落(事実)と1つの論理ルール、そして質問で構成されている。
重要な段落は、推論タスクの証拠として機能する。
事実:
エリンは毛深い。エリンは毛深いことで知られている。彼はたくさんの毛を持っていて...
エリンは良い。エリンは彼がどれだけ良いかで知られていた。彼の善良さは人生のあらゆる面で現れる...
規則:XがbigでXがgoodならば、Xはtallである。
質問:「エリンはtallである」という記述は、規則と事実から導き出せますか?
code:プロンプト
Answer whether the statement {statement} can
be derived from the rule and the facts. Answer
with either "True" or "False".
Rule: {rule}
Facts: {facts + padding}
Answer with either "True or "False".
MonoRel (モノレル)
各サンプルは、2つの重要な段落と質問で構成される。
重要な段落は、2人の人物の間の単調な関係を記述しており、1人は両方の段落に共通している。
重要な段落は、他のテキストに埋め込まれる。
Julie BakerはJulian Bartonより若い。これは不変の事実であり、北極星のように変わらない。それは昼間のように明らかな事実である...
Samantha ArnoldはJulie Bakerより若い。これはSamantha ArnoldがJulie Bakerより誕生日を少ししか経験していないことを意味する...
Samantha ArnoldはJulian Bartonより若いですか?
code:プロンプト
Here are some facts. Answer the exact
following question based on the text:
{question} Answer the question as it appears
exactly. {facts + padding}
{question}
Answer only True or False.
People in Rooms (PIR、部屋の中の人々)
各サンプルは、2つの重要な段落で構成される。
1つの段落は個人の位置を、もう1つの段落はその場所の属性を記述している。
重要な段落は、他のテキストに埋め込まれる。
ジョンのリビングルームは大理石の床で、建物の基礎そのものと同じくらい本質的な現実だ。その瞬間...
イーサン・ワシントンはジョンのリビングルームにいる。これは壁や天井と同じくらいその場所の一部となった事実だ。イーサン・ワシントンがジョンのリビングルームにいるという真実は...
イーサン・ワシントンは大理石の床の部屋にいますか?
code:プロンプト
{facts + padding}
True/False Question: {question}
Answer only True or False.
以上3つのタスクを、約250、500、1000、2000、3000トークンの入力長に拡張している。詳細は、§3.3を参照。
モデルは 、最近の有能な5つのLLM:GPT4、GPT3.5、Gemini-Pro、Mistral 70B、Mixtral 8x7Bを評価
すべての入力長にわたって同じ設定(プロンプト、温度など)を維持している。
結果は、LLMの推論性能は、モデルの最大入力長よりもはるかに短い入力長で著しく低下することが明らかになった。この傾向は、データセットのすべてのバージョンで観察された。
https://scrapbox.io/files/6622303b0a1f7200254f6539.png
入力が長くなるにつれ、様々なタスクで推論性能が低下する。入力は、タスクに関連する情報を含むテキスト(赤)と、様々なソースから抽出され増分的に拡張される無関係なテキスト(グレー)で構成される。
https://scrapbox.io/files/66238a0b4fb7220027fbae4b.png
論文を読んで感じたこと
GPT-4が3000トークンでも性能下がる(CoT併用すればわずか)のは驚き https://scrapbox.io/files/6622f0f86cea570025c18112.png
GPTsを作る上では、Figure1, 9の結果が大事だと感じた。 https://scrapbox.io/files/66238ddc5c40210024ff3e33.png
文章が長くなればなるほど、CoTによるステップ毎に、これまでの情報などがコピーされて伝達される(CoTのカバー)ことが難しくなる。
GPT-4であればそこまで影響がなさそうだが、GPT-3.5だとやはり長文の複雑なstep by stepプロンプトを投げることは賢明ではなさそう。 実際にどうする?
この論文では、3000トークン程度の入力長でも性能低下が観察された
したがって、特に複雑な推論タスクでは、1000トークン以下の入力長を目指すことが賢明かもしれない。
シンプルなタスクや質問には、短い入力で十分になるため。
可能であれば、短い入力から始めて、必要に応じて徐々に長さを増やすと良いかも。
タスクを達成するために必要な最小限の入力長を見つけることができる。
概要
本論文では、入力長の拡張が大規模言語モデル(LLM)の能力に与える影響について探究する。近年のLLMの進歩にも関わらず、異なる入力長に対するパフォーマンスの一貫性についてはよく理解されていない。この側面を調査するため、入力長の影響を評価するために特別に設計された新しいQA推論フレームワークを導入する。同一サンプルの複数のバージョンを使用し、それぞれ異なる長さ、タイプ、位置のパディングを施すことで、入力長の効果を分離する。我々の結果は、LLMの推論性能が技術的な最大値よりもはるかに短い入力長で著しく低下することを示している。データセットのすべてのバージョンで同様の低下傾向が見られるが、強度は異なることを示す。さらに、伝統的なパープレキシティ指標は、長い入力の推論タスクにおけるLLMのパフォーマンスと相関しないことが明らかになった。 1 はじめに
長い入力のサポートがタスクに転移し、短い入力プロンプトで提示されたタスクを解くのに長けたモデルが、同じタスクをより長いプロンプトに埋め込んだ場合でも実行できるようになるという仮定は妥当である。
この仮定は成り立つだろうか?
推論タスクを含む長い入力を伴うタスクでモデルをベンチマークした最近の研究は、実際にモデルが長い入力での推論に苦労することを示唆している。しかし、これらの研究では変数が適切に制御されておらず、入力長とそれに関連する実行タスクの両方が変化している。このため、パフォーマンスの低下が長い入力を扱う必要性によるものなのか、タスクが全般的に難しいためなのかを判断するのは難しい。
本研究では、他の要因をできるだけ一定に保ちながら、入力長の増加がモデルのパフォーマンスに与える影響を調査する。
他の要因を可能な限り一定に保ちつつ、入力長を変数として分離することにより、入力長の関数としてモデルのパフォーマンス傾向を測定する方法を採用する(§2)。
そのために、テキストベースの推論のためのQAデータセットであるFlexible LENgth Question Answering dataset (FLenQA)を導入する(§3)。 LLMは、3000トークンという技術的な最大値よりもはるかに短い入力長でも、推論能力が急速に低下することを示す(テストしたすべてのモデルの平均で、精度が0.92から0.68に低下)。
さらに、コンテキスト内の様々な位置に情報片を埋め込む効果と、情報片と類似または異なる2種類のコンテキストを用いた効果を調べる(§4)。実験設定に関係なく、同様の劣化傾向があることがわかった。
また、長い入力に対するモデルの次の単語予測性能は、長い入力に対する推論の下流タスクでのパフォーマンスと相関していないことを示す(§5)。
さらに、CoT (Chain-of-Thought)は、短い入力ではパフォーマンスを向上させるが、ほとんどのモデルでは入力が長くなるとパフォーマンスの低下を軽減しないことがわかった。CoTプロンプティングはnon-CoTプロンプティングよりも精度を向上させるが、その増加量はコンテキストの長さに関わらずほぼ一定であり、長いコンテキストによるパフォーマンスの低下を埋め合わせるには程遠い(§6)。唯一の例外はGPT-4で、CoTと通常のプロンプティングの差は入力が長くなるほど大きくなる。 最後に、結果を分析し、モデルの応答におけるいくつかの失敗モードを特定する(§7)。より長い入力では、モデルは入力内の特定の指示に従わない傾向があり、回答を提供しないか、CoTプロンプティングの場合は推論ステップの概要を示す前に最終的な回答を提示する。また、「false」と答える偏りや、入力長が増えるにつれて、モデルが関連情報を応答に組み込む能力が低下することも観察された。
2 望ましいデータ特性
我々の目標は、関連情報が同じであれば、入力長がLLMのテキストに対する推論能力にどのように影響するかを理解することである。そこで、与えられたテキストに対してモデルが推論することを要求するQAタスクを用いる。
モデルが入力に対して推論することの保証
長い入力に対するモデルのパフォーマンスを調べるために、テキスト内の証拠から結論を導き出すことによってのみタスクを正しく解決できることを要求する
1. 各データサンプルには、タスクを正しく解決するために必要かつ十分な、いくつかの関連テキストスパンが含まれている必要がある。
2. すべての関連スパンが合同で参照されて初めて、正常な解決に至る。テキスト要約のようなタスクの中には、「分割統治」アプローチで解決できるものがある(Gidiotis and Tsoumakas, 2020; Liu et al., 2022; Wolhandler et al., 2022)。各関連スパンを個別に特定し、パラフレーズして出力に追加する。このような分解可能なタスクは避けたい。長い入力に対する推論を実際には必要としないからだ。
3. モデルがテキストではなくパラメトリックな知識に依存することを避け、データの汚染を避けるために(Jacovi et al., 2023)、質問と関連スパンは訓練では見られない新しい事実で構成されるべきである。(💡カンニングさせないということか)
長さ要因の分離
長さの効果を分離するために、以下の要件を課す。
1. 要求される推論は、サンプルの長さに依存しないこと。関連スパンはすべての長さのバリエーションで同じであること。
2. 追加された材料(「パディング」とも呼ばれ、サンプルの長さを制御するために追加されるテキスト)は、関連テキストスパンに対する推論と矛盾したり干渉したりしないこと。
3. 入力内の各関連スパンの位置を制御可能であること。
自然に見える入力の維持
入力は、ユーザーが自然にLLMプロンプトで使用する可能性のあるものを反映している必要がある。例えば、無関係な文のシーケンスは不自然である。一方、段落ごとに首尾一貫しているが無関係な段落のシーケンスはより自然である。複数のソースから関連情報を収集した結果、このような入力が生成される可能性があるからだ。入力の長さを変更しながら入力の自然さを最大限に維持するために、段落レベルで少なくとも一貫性のある入力であることを要求する。
3 FLenQA
§2で設定された要件に沿って、Flexible LENgth Question Answering データセット(FLenQA)を導入する。 FLenQAは3つの推論タスクで構成されている。Monotone Relations(新しいタスク)、People In Rooms(新しいタスク)、Ruletaker(Clark et al., 2021)の簡易版(§3.2)。
https://scrapbox.io/files/6622e71cf33896002467a146.png
各タスクは100の基本インスタンスで構成され、そこから異なる長さ、異なる背景テキスト、背景テキスト内の事実の異なる分散を持つバリエーションを作成する(§3.3)。
各タスクはラベル分布(「True」と「False」)が完全にバランスが取れており、展開前の形式で提示されたときに、LLMによって正しく解かれるインスタンスがほとんどであることを保証する(§3.4)。
推論と長い入力のパフォーマンスに関する将来の研究をサポートするために、データセットを公開する。タスクの詳細と統計はAppendix Bに掲載。
3.1 基本インスタンス
各基本インスタンスは、
(1)オプションの接頭辞(例えば、タスクや支持事実の紹介)、
(2)タスクを解くために必要なキーセンテンスで始まるテーマ的に一貫した2つのキー段落、
(3)オプションの接尾辞(例えば、前のコンテキストについての質問)で構成される。
各インスタンスでは、異なる部分が改行で結合され、LLMに供給される。
テキスト全体を通して、キー段落は赤、その中の支持文はより濃い赤、オプションの接頭辞と接尾辞は黒で表記される。各データセットで使用された完全なプロンプトはAppendix Dにある。
https://scrapbox.io/files/66222912edf37e00251fd3e2.png
キー段落の導出
各タスクは2つの事実に依存しており、単純な文として表現される。これらの各文は、自然性の要件を確保するために、テーマ的に一貫した段落に拡張される。この拡張は、新しい情報を追加することなく文を拡張するようプロンプトを与えたGPT-4を使用して実行され、その後、著者による結果の手動検証が行われる。
3.2 タスク
単調関係(MonoRel)
各キー文は、単調スケールで2人の名前を比較する(例:「XはYより大きい」、「YはZより大きい」)。接尾辞はTrue/Falseの質問で、テキストに明示的に比較されていない(異なる文に現れる)2つのエンティティ間の関係について尋ねる。関係は推移的で単調な性質を持つ。
このデータは、Sinha et al. 2018によって導入された、血縁関係を表す様々な単調関係に着想を得ている。本研究では、新しい関係タイプのセットを定義する。§2の要件に従い、質問に答えるには両方のキー文を推論する必要がある。データは、Faker pythonライブラリ(Faraglia and Contributors, 2012)からランダムに名前を引き出し、手作業で作成した関係リストから関係を引き出すことにより、プログラム的に作成される。
People in Rooms (PIR)
1つのキー段落は個人の位置を記述し、もう1つのキー段落はその位置のある属性を記述する。タスクは、与えられた人物が与えられた属性を持つ部屋に位置しているかどうかを推論することである。
このデータセットは、1人以上のエージェントが辿った経路について推論が行われるbAbIタスクセット(Weston et al., 2016)に着想を得ている。PIRはこのタスクの簡略版で、1人のエージェントのみが関与する。タスクに登場する人物の名前はランダムに抽出される(Faraglia and Contributors, 2012)。部屋と属性は、相互に排他的になるように手動で選択された(例えば、部屋は青い壁か赤い壁のどちらか)。したがって、あいまいな例は作成されない。
SImpllified Ruletaker
Ruletaker(Clark et al., 2021)のタスク定式化を採用する。これは、自然言語で明示的な論理理論を提示するテキスト内での定理証明のために設計されたベンチマークである。各インスタンスは、論理規則、2つの事実を導入する文、規則と事実に関する質問で構成される。5
3.3 長さのバリエーション
各基本インスタンスを、約250、500、1000、2000、3000トークンの入力長に拡張する。これらのターゲットに入力を拡張するために、タスクとは無関係の背景テキストを追加する(「パディング」、§2)。各基本インスタンスと長さのペアに対して、背景テキストのソースが異なるバージョンを作成する。キー段落と同じ、類似、または異なるものである。これらのそれぞれについて、背景テキスト内のキー段落の分散も変化させる。
3.3.1 背景テキスト
複製
長さが変わっても情報が同じままという極端なケースを評価するために、各長さのテキストがキー段落の複数のコピーで構成されている実験を行う。各キー段落を修正せずに複製し、入力の目標長を達成する。2つの複製された段落が、目的のサンプル長に達するまで交互の順序で現れる。この場合、QA推論の2つのサブタスク(重要な情報の特定とその推論)のうち、最初のサブタスクは自明である。
類似
同じタスクからのリサンプリング。キー段落と類似した背景テキストを得るために、同じタスクの他の基本インスタンスからサンプリングした段落でパディングを行う。矛盾を避けるために、キー段落に出現するエンティティを含む段落は除外する。したがって、このパディングはサンプルの敵対的またはあいまいなバージョンを生成しない。
異なる:Book Corpus
キー段落とは異なる背景テキストを得るために、Books Corpus(Zhu et al., 2015)のテキストを使用する。Book Corpusからランダムな(連続した)テキストをサンプリングし、文の境界を尊重しながら、各キー段落をその中に挿入する。
3.3.2 テキスト内のキー段落の位置
背景テキスト内でのキー段落の分散方法を4通り考える。最初の3つのケースでは、キー段落が隣接して現れ、4番目ではキー段落が様々な長さの介在テキストによって分離される。
https://scrapbox.io/files/662220e5b4123e00263464d1.png
(1) キー段落が最初:キー段落がテキストの先頭に現れ、その後にパディングが続く。
(2) キー段落が中央:パディングの半分がキー段落の前に、半分が後に付加されるが、その間には付加されない(キー段落は正確に中央にある)。
(3) キー段落が最後:キー段落がテキストの最後に現れ、パディングが接頭辞として前に付加される。
(4) ランダムな配置:パディングが段落の前、間、後にランダムな間隔で追加される。
3.4 基本インスタンスは回答可能
各サンプルの質問と関連するキー段落のみを含む最小限のテキストでLLMを評価することにより、ベースラインの精度を推定する。non-CoTプロンプティングを使用した場合でも、5つのモデルのうち4つが高い精度(>0.89)を達成することがわかった。最も性能の低いモデル(GPT3.5)は、劣化が観測可能なほど十分な精度(0.77)を達成した。完全な結果はAppendix Cにある。
https://scrapbox.io/files/66222faab687570025afbf39.png
4 主要実験
3つのタスクすべての平均精度を報告し、すべての入力長にわたって同じ設定(プロンプト、温度など)を維持する。最近の有能な5つのLLM:GPT4、GPT3.5、Gemini-Pro、Mistral 70B、Mixtral 8x7Bを評価する。設定パラメータの詳細な内訳についてはAppendix Eを参照。
4.1 入力長と位置の影響
まず、様々な実験設定における入力長がLLMの推論性能に与える影響を検証する(図1)。
https://scrapbox.io/files/6622303b0a1f7200254f6539.png
無関係な段落なし
まず、関連トークンのみが追加される極端なケースを調べる(「重複パディング」)。Shi et al. (2023)は、推論タスク(GSM8K)の入力に無関係なテキストを追加すると、モデルのパフォーマンスが大幅に低下することを示した。 キー段落の正確なテキストの重複がパディングとなる設定でテストすることで、関連性の効果を分離する。この設定では、LLMはキー段落を見つけるために入力を「検索」する必要がないため、位置への偏りは無関係になる(Liu et al., 2023b)。また、キー段落間の距離によってもたらされる可能性のある難しさも無関係になる。したがって、パフォーマンスの低下はないと予想される。
驚くべきことに、図3に示す結果は、この設定でも長さが要因となり、すべてのモデルで長さが増すにつれて精度が低下することを明らかにしている。
💡わかりずらかったので、Opusに解説させた
https://scrapbox.io/files/66238268596a94002506ff69.png
https://scrapbox.io/files/6622311c97a1df00243db075.png
無関係な段落に囲まれた隣接する段落
次に、プロンプトにキー段落と追加の無関係な段落が含まれるより現実的なケースに移る。最初の一連の実験では、キー段落を互いに隣接させたままにする。LLMは入力の1つの領域に集中し、残りを無視するだけでよい。Liu et al. (2023b)は、抽出型QAのタスクにおいて、テキスト内の答えの位置がモデルの正答能力に影響を与えることを発見した。したがって、両方のキー段落をテキストの先頭、末尾、中央に配置する3つのシナリオを実験する。すべてのケースで、2種類の無関係なパディングの平均を取る。
図4の結果は、長さが500トークンを超えると精度が大幅に低下することを示している。ほとんどのモデルでは、キー段落の隣接性がより高い精度を生み出し、キー段落が最後に現れる場合、精度がしばしば最も高くなる(最近性バイアスを示唆している)。
https://scrapbox.io/files/662231acf17f4b0024dd664a.png
隣接しない関連段落。
最後に、関連事実をテキスト内の2つの隣接しない場所から収集する必要があるシナリオをテストする。
ここでは、図1の結果から、長さが増すにつれてパフォーマンスが非常に大きく低下することがわかる。これは、LLMが大きめのコンテキスト長の中で2つの異なる場所から証拠を収集する必要がある場合、推論タスクが著しく難しくなることを示している。
4.2 無関係な材料の種類
ここでは、キー段落が隣接しないケースにのみ焦点を当て、無関係なテキストの種類の影響を調べる。無関係な段落が関連段落と類似している場合(同じタスクから取られた場合)と、異なる場合(Booksコーパスから取られた場合)の2つのシナリオを検討する。
💡異なる場合が、Books というやつか。
https://scrapbox.io/files/6623864bc40bb500261e4543.png
当初の予想では、無関係な段落が関連段落と異なる設定の方が、無関係な段落を破棄するのが容易になるため、モデルにとって容易になると考えていた。しかし、結果(図5)は、そうではないことを示している。異なる設定での低下は、ほとんどの場合、類似の設定よりも大きい。
https://scrapbox.io/files/662231f5a9c38b002679840f.png
5 次の単語予測との相関
パープレキシティ指標は、モデルが入力全体を利用していることを示すために、主要なベンチマークとして使用されている。しかし、下流タスクでのパフォーマンスはモデルのパープレキシティと必ずしも相関しないことが示されている。 ここでは、データセットの柔軟性を利用して、パープレキシティと推論精度の相関を理解する。
クローズドモデルでは、完全な語彙トークン確率にアクセスできないため、モデルのパープレキシティを測定できない。そのため、データ上の次の単語の精度を測定することにした。モデルに与えられたテキストの次の単語を完成させるようプロンプトを与え、出力が真の次の単語と完全に一致する場合は正解とする。データセット内のサンプル(質問なし)をテキストとして使用し、結果を同じサンプルの推論パフォーマンスと比較する。
我々の手法では、他の研究(Anil et al., 2023; Jiang et al., 2024)と同様に、入力が長いほど精度が上がるという次の単語予測タスクでの傾向を発見した。しかし、図1に示すように、次の単語の精度はFlenQAでの推論と負の相関がある。
これは、次の単語予測、同様にパープレキシティを測定することが、長い入力に対する下流タスクの評価の代わりにはならないことを意味する。
6 思考の連鎖は役立つか?
Kojima et al. (2022)とWei et al. (2022)によって導入された思考の連鎖(CoT)プロンプティングは、LLMが正しい答えを導き出す前に推論ステップで構成されるテキストを生成するよう促す手法である。
CoT手法は、多くの推論ベースの質問応答設定で精度を大幅に向上させることが示されている。この手法を使用すると、傾向が変化し、LLMが長い入力で効果的に実行できるようになるだろうか?Zhou et al. (2022)の誘発文字列を使用してCoTを実験する。
結果(図1)は、CoTが異なるLLMに異なる効果を与えることを示しており、全体として長さによるパフォーマンスの低下を軽減しない。
https://scrapbox.io/files/6622720099a24a0025f81697.png
ほとんどの場合(GPT4、Mixtral 8x7B、Mistral 70B、GPT3.5)、パフォーマンスは向上するが、GPT-4でのみ、長さが増すにつれて効果が増大し、限定的な軽減技術となっている。GeminiProの場合、短い長さではパフォーマンスを向上させるが、入力長が長くなるとCoTがパフォーマンスを低下させることがわかる。 CoTプロンプティングのすべてのタスクと設定における完全な結果は、Appendix Eにある。
7 長さに起因する失敗モード
結果から4つの失敗モードを発見した。不正解と相関する一貫したパターンである。
回答の失敗
データセットのすべてのサンプルは、プロンプト(Appendix D)で指示されているように、「True」または「False」で回答できる。しかし、一部のLLMは、「テキストに十分な情報がない」などの文を前に置いて、質問に答えることを拒否した。この傾向は、入力長が増すにつれて大きくなり、「True」と「False」の明確な選択肢を指定した指示に従わないことを示している。この傾向は図7に示されており、すべてのモデルの結果はAppendix Eにある。
https://scrapbox.io/files/662274fafa425b00280b87cb.png
ラベルバイアス
§3で述べたように、我々のデータセットはラベル分布が完全にバランスが取れている。一部のLLMは、入力長が長くなるにつれて、一方のラベル、典型的には「false」を優先する傾向があることがわかった。すべてのモデルの結果はAppendix Eにある。
回答が先、理由が後
思考連鎖プロンプティングを使用する際、一部のLLMは、入力が長くなるほど、期待される推論ステップの前に最終的なtrue/false回答を出力する可能性が高かった。最近の研究で、Kojima et al. 2022は、モデルが回答後に推論ステップを提供するよう促した場合、パフォーマンスは向上しないことを発見した(以前のトークンにのみ注目する自己回帰モデルを使用する場合に予想されるように)。これは、長さが増すにつれて、プロンプトの指示に従わない例と見なすことができる(Appendix Dのプロンプト指示を参照)。テストでは、不正解は推論ステップの前に回答が出現することに統計的に依存していることがわかった。
https://scrapbox.io/files/6622760d181d6f00259fb81d.png
図8:ゼロショットCoTプロンプト設定において、ほとんどのモデルは推論ステップの前に回答を生成する傾向があり、入力長が長くなるほどその傾向が強くなる。
思考連鎖のカバー率の欠如
FlenQAのすべてのタスクでは、LLMは以下のことを要求される。 (1)入力内の関連テキストを見つける。
(2)それらに対して関連する推論を行う。
理想的には、CoTプロンプトは、LLMに関連テキストを見つけ、それぞれを「ステップ」部分にコピーさせ、長い入力による推論への影響を避けるはずである。しかし、入力長が長くなるにつれ、LLMのこの能力が低下することがわかった(図9)。
https://scrapbox.io/files/662276eeb0625c0024580de1.png
図9:関連事実のCoTカバー率。入力が長くなるにつれ、すべてのモデルがCoTの推論ステップ段階で、タスク関連情報を出力できなくなる頻度が高くなる。
💡わかりずらかったので、補足する。
例えば、「AさんはBさんより年上で、BさんはCさんより年上です。AさんはCさんより年上ですか?」という問題を考える。
理想的には、CoTを使えば、たLLMは次のように推論する。
・ステップ1: 入力から関連する情報を抽出
AさんはBさんより年上
BさんはCさんより年上
・ステップ2: 関連情報に基づいて推論
AさんはBさんより年上で、BさんはCさんより年上
よって、推移律により、AさんはCさんより年上
・ステップ3: 問題に答える
AさんはCさんより年上です。
しかし、入力が長くなると、LLMは次のような問題を抱えることがわかった。
・関連情報(AさんとBさん、BさんとCさんの年齢関係)を見つけ出すことが難しくなる。
・推論のステップで、関連情報を適切に利用できなくなる。
その結果、LLMは問題に正しく答えられなくなる。
このように、CoTは、短い入力に対してはLLMの推論性能を向上させるものの、長い入力に対しては十分に効果を発揮できないことがわかった。
これを測定するために、モデルの出力の「ステップ」部分における関連テキスト(各サンプルのキー文)のカバー率を計算する(詳細はAppendix D.4)。ほとんどのモデルでは、入力長が長くなるほど、入力内の関連テキストを特定する能力が低下することがわかった。不正解は、事実の不完全なカバー率に統計的に依存していることがわかった。
8 関連研究
長い入力に対するLLMの評価は、下流タスクのベンチマークと次の単語予測の2つの異なる経路をたどってきた。ベンチマークの領域では、モデルを評価するために使用できる長い入力サンプルのデータセットが提案されている(Shaham et al., 2023, 2022; An et al., 2023b,a)。これらのデータセットは、異なる固定長の入力に対して作成されている。このアプローチは直感的ではあるが、様々な長さの入力に対する能力を制限し、入力長がモデルのパフォーマンスに与える真の影響を理解することを困難にしている。一方、次の単語予測評価は、モデルが異なる長さの入力をどのように処理するかについての洞察を提供する(Anil et al. 2023; Jiang et al. 2024のように行われる)。しかし、このタスクと下流のパフォーマンスの相関は一貫性がないことが示されている(Liu et al., 2023a; Xia et al., 2022; Tay et al., 2022)。本研究では、長さに関してこの発見を再現した。
本研究は、タスクのセマンティックコンテンツ(テーマ)(Dasgupta et al., 2022)、プロンプト戦略(Kojima et al., 2022; Yao et al., 2023; Jin et al., 2024)、QAタスクの様々な特性(Levy et al., 2023)を入力介入によって調査した先行研究に基づいている。我々の調査では、入力長に焦点を当て、それを分離して、パフォーマンスへの影響を明らかにしている。
9 考察
現在の大規模言語モデル(LLM)の推論性能に対する入力長の影響を調べた。我々の結果は、モデルの最大入力長容量に達する前に、長い入力でパフォーマンスが大幅に低下することを明らかにしている。我々の実験は、タスクに無関係な入力部分を調整することで長さ要因を分離できるFLenQAというデータセットに依存していた。サンプルをどのように調整しても、長さが推論性能に強く影響することを示した。 最後に、拡張指示に従うことの難しさや、関連性の低い情報に偏ることなど、特定の失敗モードを特定した。我々の分析は特定の失敗を明らかにし、LLMで見られた弱点に取り組み、是正するための将来の研究の方向性を提供している。
結論として、我々の研究は、単一の入力長に基づいてモデルのパフォーマンスを評価しても、全体像は得られず、より nuanced な評価が必要であることを示唆している。技術的にサポートしているあらゆる長さで性能を維持するモデルこそが、長期にわたって有能であると見なされるべきだと主張する。
制限
行動テストの性質上、入力の長さが変化することで観察されたパフォーマンスの低下については説明されていない。多くのモデルへのアクセスが不足しているため、この方向性は引き続き限定的であると思われる。第二に、我々のアプローチは、異なるLLM間で普遍的に適用可能なテストを作成することを目的としていたため、最小公倍数に適合するタスクを選択することになった。このアプローチでは、より複雑な推論タスク(例えば5つのキー段落)におけるニュアンスのあるパフォーマンスの違いを見落とす可能性がある。例えば、強力なモデルは、我々の知見が示唆するよりも短い入力長でパフォーマンスの低下を示すかもしれない。さらに、我々は推論タスクのタイプのサブセットに焦点を当てたが、これは他のタイプとは行動が異なる可能性がある。最後に、我々の研究ではキー段落間の距離をテストしておらず、LLMのパフォーマンスの1つの側面が未探索のままであり、将来の研究に委ねられている。