LLMによる推論中のReasoning

推論能力の向上はしばしば chain-of-thought や extended thinking といった語で論じられてきたが、近年では、推論が最終回答の前に一括して行われるのか、それとも回答生成、読解過程、ツール使用、外部観測の取得といった処理の途中に挿入され、逐次的に更新されるのかという差異が、モデルの挙動を理解するうえで重要になっている。（2026/3/10）

以下では、interleaved thinking、interleaved reasoning、ReAct、Self-Notes など具体的な言葉を並べて、使用領域や用途の違いを整理する。

interleaved thinking：Anthropic社のClaudeにおいて使われるツール利用込みの実装

ReAct ：interleaved thinkingに近い構造を持つ代表的な agent の枠組みに関する研究

interleaved reasoning ：推論と回答生成の交互化を扱う研究概念

Self-Notes ：読解の途中にノートや推論を書き込む発想を示す補助線

online reasoning・incremental reasoning ：上記をより一般化して説明するための整理概念

これらは同じ「途中で考える」という直観を共有しながらも、何が何と interleave されるのか、外界との相互作用を含むのか、あるいは内部的な生成制御にとどまるのかという点で異なっている。

Interleaved Thinking

Interleaved thinking は、Anthropic が Claude 4 系の extended thinking で用いている語であり、単に「長く考えてから答える」ことではなく、「ツールを使う途中でも再び考える」ことを可能にする仕組みを指します。Anthropic の説明では、Claude はツール呼び出しの前にだけ reasoning を行うのではなく、ツール結果を受け取ったあとにも thinking を継続できるとされます。したがって、ここで interleave されるのは、推論と最終回答だけではなく、推論とツール使用、さらにツールから返ってきた観測結果です。この意味で interleaved thinking は、one-shot の chain-of-thought を拡張したものというより、外界との相互作用を含む逐次的な推論制御の概念として理解するのが適切です。

参考：Introducing Claude 4 https://www.anthropic.com/news/claude-4

Interleaved Reasoning

Interleaved reasoning は、interleaved thinking より広い研究概念であり、「最初にすべて考えてから答える」のではなく、「答えながら、あるいは解答途中に推論を挿入しながら進む」方式を指す語として使われます。2025年の “Interleaved Reasoning for Large Language Models via Reinforcement Learning” では、従来の長い chain-of-thought が time-to-first-token を押し上げるのに対し、thinking と answering を交互に行うことで、より早く出力を開始しつつ性能も維持・改善できる可能性が論じられています。ここで interleave されるのは、推論とツール行為ではなく、推論と回答生成そのものです。したがって、この概念は agent 的な外部行為を必須とせず、純粋に出力系列の内部構造として「途中で考える」ことを捉えるための語だと言えます。

参考：Interleaved Reasoning for Large Language Models via Reinforcement Learning https://arxiv.org/abs/2505.19640

ReAct

ReAct は、reasoning と acting を交互に行わせる枠組みを明示的に打ち出した代表的な概念です。この枠組みでは、モデルは reasoning trace を生成して方策や仮説を更新し、そのあと action を生成して外部環境に働きかけ、さらに observation を受けて次の reasoning に進みます。したがって、ここで interleave されるのは、推論と読解過程ではなく、推論と行為、そして行為を通じて得られる観測です。この意味で ReAct は、interleaved thinking を tool use を含む実践的な agent 形式へ押し広げた先行的枠組みとして位置づけられます。とくに「途中で考える」とは何かを、静的な scratchpad ではなく、環境との循環のなかで定義した点に意義があります。

参考：ReAct: Synergizing Reasoning and Acting in Language Models https://arxiv.org/abs/2210.03629

Self-Notes

Self-Notes は、「読み終えてから考える」のではなく、「読みながら考え、その考えを書き残す」ことを前面に出した概念です。この論文では、通常の scratchpad や chain-of-thought が文脈を読み終えたあとで reasoning tokens を追加するのに対し、Self-Notes ではモデルが任意の時点で文脈から逸れて明示的 reasoning tokens を生成でき、それを working memory としても使えるとされます。ここで interleave されるのは、推論とツール行為ではなく、推論と読解過程です。したがって、interleaved thinking をより広い認知的観点で捉え直す際の重要な補助概念になります。

参考：Learning to Reason and Memorize with Self-Notes https://arxiv.org/abs/2305.00833

Interleaved Scratchpad

Interleaved scratchpad は、固定された前置きの reasoning block を書くのではなく、必要な局面で scratchpad 的な中間記述を差し込みながら解答を進める考え方を指す補助概念です。これは単独で厳密に固定された標準用語というより、従来の scratchpad を「解答前の作業欄」としてではなく、「処理途中にも現れうる作業欄」として捉え直す見方に近いです。ここで interleave されるのは、推論と回答生成、あるいは推論と読解の進行であり、したがってこれは interleaved reasoning や Self-Notes をつなぐ中間的な見方として有用です。言い換えれば、思考を一括前置するのではなく、必要な場所に局所的に配置する発想だと言えます。これは特定の一論文の正式タイトルというより、Self-Notes や interleaved reasoning を説明するための整理概念として用いるのが無難です。

参考：

Learning to Reason and Memorize with Self-Notes https://arxiv.org/abs/2305.00833

Interleaved Reasoning for Large Language Models via Reinforcement Learning https://arxiv.org/abs/2505.19640

Online Reasoning

Online reasoning は、推論をあらかじめ完結させてから応答するのではなく、入力や中間結果の到着に応じて逐次的に更新していく見方を表す補助概念です。この語は interleaved thinking のような特定ベンダーの機能名ではありませんが、「途中で考える」方式を最も一般化した記述として有効です。ReAct では観測に応じて reasoning が更新され、Self-Notes では読解の進行に応じてノートが追加され、interleaved reasoning では生成の進行に応じて思考が挿入されます。ここで共通しているのは、推論が一度で完了する静的な前処理ではなく、処理の進行に伴って動的に更新される点です。したがって、online reasoning はこれら複数の interleaving 系概念を一段抽象化してまとめる際に便利な見方です。これは厳密な定訳付きの単独理論名というより、複数の枠組みを束ねる説明概念として使うのが適切です。

参考：

ReAct: Synergizing Reasoning and Acting in Language Models https://arxiv.org/abs/2210.03629

Learning to Reason and Memorize with Self-Notes https://arxiv.org/abs/2305.00833

Interleaved Reasoning for Large Language Models via Reinforcement Learning https://arxiv.org/abs/2505.19640

Incremental Reasoning

Incremental reasoning は、推論を一つの長いまとまりとしてではなく、小さな段階に分けて逐次的に形成するという観点を強調する補助概念です。online reasoning が入力や環境に応じた動的更新を強調するのに対し、incremental reasoning は、最終回答へ向かう過程そのものが段階的に構築されることに重心があります。interleaved reasoning の文脈では、モデルは最初に完全な推論列を準備してから話し始めるのではなく、回答の流れのなかで必要な推論をその都度差し込んでいきます。したがって、ここで重要なのは「推論が途中で挿入されること」だけでなく、「推論が部分的・段階的にしか与えられないこと」です。この意味で incremental reasoning は、interleaved reasoning の時間的構造を説明するための概念として位置づけられます。ただし、これも interleaved thinking のような固有機能名ではなく、現象を記述する一般的な補助概念として使うほうが正確です。

参考：Interleaved Reasoning for Large Language Models via Reinforcement Learning https://arxiv.org/abs/2505.19640