Large Reasoning Modelの限界に関する研究
NotebookLM
Reasoningモデルの限界の指摘
7 Jun 2025
組成の複雑さを精密に操作できる制御可能なパズル環境を用いて、大規模推論モデル(LRM)の根本的な能力と限界を系統的に調査しました。この研究は、最先端のLRMが特定の複雑さを超えると精度の完全な崩壊に直面すること、そして問題の複雑さが増すにつれて推論努力(思考トークン)がある点を超えると減少するという直感に反するスケーリング限界を示すことを明らかにしました。また、LRMは正確な計算に限界があり、明示的なアルゴリズムを活用できず、異なるスケールや問題間で一貫性のない推論を行うこと、さらには簡単な問題で「考えすぎ」現象を示すことも指摘しています。これらの発見は、現在の推論モデルにおける思考能力の根本的な限界を示唆しています。DeepMind論文は、思考型LLMが特定の複雑さの閾値を超えると完全に失敗するという本論文の発見を同時期の研究として言及しています。また、アリゾナ州立大学論文も、CoT推論の脆弱性に関する議論の中で、モデルが複雑なタスクで一貫性のない推論パスを生成する傾向を示す本論文を引用しています。
by NotebookLM
Reasoningモデルの限界の厳密な検証
9 Jul 2025
最先端のLLM、特に「思考」モデルが、人間にとっては簡単な「単純な推論問題」に依然として失敗していることを示しました。この研究では、「退屈さ」の調整可能なパラメータを持つ手続き的に生成されたタスク(文字数/単語数カウント、一階述語論理、証明木、旅行計画)と、有名パズルを意図的に単純化した「Unpuzzles」データセットを導入しました。LLMは、タスクが長く、反復的、または退屈になると一貫して失敗することが示され、特に、元の(難しい)パズルでは優れたパフォーマンスを示すものの、対応する単純化されたUnpuzzlesではパフォーマンスが著しく低下するという現象を発見しました。これは、モデルが元のパズルのテキストと解法を記憶しているために、「推論デリリウム」と呼ばれる「考えすぎ」現象を示すためだと結論付けられています。本論文は、Apple論文 (Shojaee et al., 2025) が、思考型LLMが特定の臨界複雑性を超えると完全に失敗することを示した同時期の研究であると指摘しつつ、その実験設計には一部批判があることも述べています。
by NotebookLM
CoTやファインチューニングの限界
2 Aug 2025
LLMにおけるChain-of-Thought(CoT)推論の性質をデータ分布の観点から批判的に検証し、CoT推論が本物の論理的推論ではなく、学習されたパターンマッチングの高度な形式である「脆い蜃気楼」であると結論付けました。「DataAlchemy」という制御された環境を導入し、LLMをゼロから訓練して、タスク汎化、長さ汎化、フォーマット汎化という3つの側面からCoT推論の能力を系統的に調査しました。その結果、CoT推論は訓練データの分布から少し外れるだけで性能が大幅に低下することが一貫して示され、特に、訓練時と異なる推論チェーンの長さやフォーマットの変化に非常に敏感であることが明らかになりました。この研究は、CoTは学習データに制約されるパターンマッチングであり、実務家は過度な依存を避け、OOD(分布外)テストを優先し、ファインチューニングを「一時的な修正」と認識すべきであると提言しています。本論文は、CoT推論がより複雑なタスクで首尾一貫しない解決策を頻繁に生成し、一貫した推論パスをたどれないという点で脆弱性を示すことを、Apple論文 (Shojaee et al., 2025) を引用して説明しています。
by NotebookLM
インコンテキストラーニング(ICL)だけで未学習の知識を扱うことは難しい
12 Sep 2025
大規模言語モデル(LLM)が追加のトレーニングなしにタスクを解決する能力であるIn-Context Learning (ICL)が、厳密な意味で「学習」に該当するのかという根本的な問いを探求しています。研究者らは、ICLが数学的には学習の範疇に入ると論じつつ、その実態を明らかにするために大規模な実証分析を実施しました。実験では、プロンプトのスタイル、言語的な特徴、およびデータ分布の変動(OOD:Out-of-Distributionシフト)の影響を系統的に評価し、ICLが効果的な学習パラダイムである一方で、汎化能力に限界があることを発見しました。特に、LLMの精度は提供される例(エグゼンプラー)の数が増えると向上し、プロンプトの文言よりもプロンプト内の統計的な特徴に過度に依存する傾向があるため、タスク間のパフォーマンスが一貫せず、分布外データに対して脆弱になるという結論を導いています。
by NotebookLM
本論文は、ICL(インコンテキスト学習)を「学習パラダイム」として大規模かつ体系的に検証するという新たなアプローチを提供しつつ、その検証を通じて、既存の研究で示唆されていたLLMの推論能力に関する限界(特に分布シフトに対する脆弱性やCoTの限界)を、ICLの文脈においてより厳密かつ大規模に確認した成果であると言えます。
先行する3つの論文が、特定の推論モデル(LRM)やCoTのメカニズムが、問題の複雑さ(Apple論文)やデータ分布の変化(アリゾナ州立大学論文)、「退屈さ」(DeepMind論文)によっていかに失敗するかを分析しているのに対し、本論文はICLのプロンプト内におけるエグザンプラ数や形式を極限まで操作し、ICLが形式的に学習を構成するか、そしてそのメカニズムが、いかなるLLMやプロンプトスタイルにおいても、自己回帰によって引き起こされる統計的パターンマッチングに帰結するのかどうかを、大規模な実験を通じて追求しています。
by NotebookLM