Hierarchical Reasoning Model
26 Jun 2025
概要
人間の脳の階層的でマルチタイムスケールの処理からインスピレーションを得た階層的推論モデル(HRM)を紹介しています。HRMは、抽象的なプランニングのための高レベルモジュールと、詳細な計算のための低レベルモジュールという2つの再帰モジュールを使用し、Chain-of-Thought(CoT)モデルが苦戦する数独や迷路探索などのタスクで、少ないパラメータと訓練データで優れた性能を達成しています。
by NotebookLM
メモ
https://gyazo.com/4d8ac46faec5c97e4b485e29b1642d98
画像は論文より引用
(A)情報に即座に反応して具体的なレベルの推論を行うLow-levelモジュールと(B)Low-levelモジュールの推論結果が出てから抽象的な推論を行うHigh-levelモジュールを基本とする構造.
フォワードパスでは,$ TステップのL-moduleの推論(速い計算)とその結果に基づく1ステップのH-moduleの更新(遅い計算)が,$ Nサイクル繰り返される.
1. 入力初期化
入力 $ xは 入力ネットワーク$ f_Iによって作業表現 $ \tilde{x}に変換される。
2. 低レベル(速い)計算
各タイムステップごとにL-moduleは$ \tilde{x} と、そのサイクルで固定されている H-moduleの状態 $ z^Hに基づいて、自身の状態 $ z^Lを更新する。
これを$ Tステップ行う。
3. 高レベル(遅い)計算
H-moduleはL-moduleの最終状態 $ z^Lを使用して自身の状態 $ z^Hを更新し、L-moduleに新しい計算コンテキストとして提供して2に戻る。
この2と3の往復を$ Nサイクル行う。
4. 出力
最終的な予測 $ \hat{y}は、H-moduleの最終隠れ状態 $ z_{NT}^Hから出力ネットワーク $ f_Oを通じて抽出される。
NotebookLM
概要
この論文は、階層的推論モデル (HRM) と呼ばれる新しいリカレントニューラルネットワークアーキテクチャを紹介しています。HRMは、人間の脳における階層的処理とマルチタイムスケール処理からインスピレーションを得ており、低レベルモジュールと高レベルモジュールという、互いに依存する二つのリカレントモジュールを使用して、複雑な推論タスクを効率的に実行します。
このモデルは、既存の大規模言語モデル(LLM)で一般的な思考連鎖(CoT) 技術が抱える課題(計算コストの高さやデータ依存性)を克服することを目指しており、わずか約1000個の訓練サンプルと2700万個のパラメータで、数独や複雑な迷路探索などの困難な推論ベンチマークにおいて、CoTモデルを大きく上回る性能を達成しました。
モデル
HRMは、以下の2つの相互に依存する再帰モジュールで構成された再帰型アーキテクチャです。
フォワードパスは、(高レベルな)$ N回のサイクルと、高レベルサイクルごとに$ T回の(低レベルな)タイムステップで展開されます。
高レベルモジュール (H-module)
遅い時間スケールで動作し、抽象的な計画や全体的な戦略の指示を担当します。
H-moduleは1サイクル($ Tタイムステップごと)に一度だけ更新されます。
この $ z_H の更新によってL-moduleに新たなコンテキストが設定されます。
これにより、L-moduleの計算パスが実質的に「リセット」され、異なる局所的な平衡点に向けた新しい収束フェーズが開始されます。
低レベルモジュール (L-module)
速い時間スケールで動作し、迅速かつ詳細な計算や集中的な探索の実行を担当します。
各サイクル中、L-moduleは安定した局所的な平衡点に向かって収束を示します。
この局所的な平衡点は、そのサイクル中にH-moduleから提供される高レベル状態 $ z_Hに依存しています。
学習の工夫
階層的収束 (Hierarchical Convergence)
L-moduleはサイクル内で収束しますが、H-moduleがその結果を取り込んで更新されることで、L-moduleの計算パスが「リセット」され、次の計算フェーズが開始されます。
この仕組みにより、HRMはH-moduleが全体の問題解決戦略を指示し、L-moduleが各ステップに必要な集中的な探索や洗練を実行するという、入れ子的な計算シーケンスが実現されます。
効率的な学習(勾配近似)
HRMは、再帰型ネットワークの学習で一般的に使用される、メモリ集約型なBPTT(Backpropagation Through Time)を必要としません。代わりに「1ステップ勾配近似」という効率的な方法を採用しており、これはスケーラブルで、脳の学習メカニズムとも整合性が高いとされています。
適応的な計算時間 (ACT)
HRMは、タスクの複雑さに応じて必要な計算リソースを動的に調整するAdaptive Computational Time (ACT) 戦略を組み込んでいます。
実装
HRMは、リカレントなフレームワーク内にTransformerの計算ユニットを組み込むことによって、計算深度と安定性を両立させているリカレントTransformerモデルだと言えます。
全体の構造:RNNアーキテクチャ
HRMは、リカレントアーキテクチャとして提案されています。
HRMは、訓練の安定性と効率性を保ちながら、顕著な計算深度を達成するために設計されたリカレントアーキテクチャです
モジュールの実装:Transformerブロック
HRMのHモジュールとLモジュールは、現代のLLMに見られる工夫(RoPE、GLU、RMSNormなど)が組み込まれたエンコーダーオンリーのTransformerブロックを用いて実装されています。
HRMの学習方法
HRMは、複雑な推論タスク(ベンチマーク)の入出力例を非常に少数だけ与えられ、それらのタスクを中間ステップの言語化なしに直接、そしてゼロから(事前学習なしに)学習するというアプローチを採用しています。
1. 事前学習とCoTの不使用
HRMは、大規模言語モデル(LLM)で一般的に行われる事前学習(pre-training)を行わず、また、推論によく使われるChain-of-Thought(CoT)のデータや教師も使用しません。CoTとは異なり、HRMは中間過程の明示的な教師なしに、単一の順方向パスで順次的な推論タスクを実行します。
2. 直接的な訓練(Direct Prediction)
HRMモデルはランダムな重みで初期化され、入力と出力のペアを使用したsequence-to-sequenceの設定で訓練されます。
これは、ベースラインとして言及されている「Direct pred」(CoTや事前学習なしで直接予測を行うこと)と正確に同じ訓練設定です。
3. 少数の訓練サンプル
HRMは、複雑な推論タスクにおいてデータ効率が非常に高いという特徴があります。ARC-AGI、Sudoku-Extreme、Maze-Hardといった挑戦的なベンチマークに対し、タスクごとにわずか約1000個の訓練サンプルのみを使用して結果を達成しています。これは「small-sample learning scenarios(少サンプル学習シナリオ)」に焦点を当てた実験です。
例えば、ARC AGI Challengeでは、公式データセット(約1000例)のみを使用してゼロから訓練されています。
検証条件
https://scrapbox.io/files/68ce21783868403371abee55.png
NotebookLMが作成
結果
https://gyazo.com/06b01c464896dc904572f39cea514526
論文より引用
https://scrapbox.io/files/68ce2812904cda135f98df3e.png
NotebookLMが作成(レンダリングの問題を手動修正)
ーーー
2025/9/19 23:35