Hierarchical Reasoning Model

26 Jun 2025

概要

人間の脳の階層的でマルチタイムスケールの処理からインスピレーションを得た階層的推論モデル（HRM）を紹介しています。HRMは、抽象的なプランニングのための高レベルモジュールと、詳細な計算のための低レベルモジュールという2つの再帰モジュールを使用し、Chain-of-Thought（CoT）モデルが苦戦する数独や迷路探索などのタスクで、少ないパラメータと訓練データで優れた性能を達成しています。

by NotebookLM

メモ

https://gyazo.com/4d8ac46faec5c97e4b485e29b1642d98

画像は論文より引用

（A）情報に即座に反応して具体的なレベルの推論を行うLow-levelモジュールと（B）Low-levelモジュールの推論結果が出てから抽象的な推論を行うHigh-levelモジュールを基本とする構造．

フォワードパスでは，$ TステップのL-moduleの推論（速い計算）とその結果に基づく1ステップのH-moduleの更新（遅い計算）が，$ Nサイクル繰り返される．

1. 入力初期化

入力 $ xは入力ネットワーク$ f_Iによって作業表現 $ \tilde{x}に変換される。

2. 低レベル（速い）計算

各タイムステップごとにL-moduleは$ \tilde{x} と、そのサイクルで固定されている H-moduleの状態 $ z^Hに基づいて、自身の状態 $ z^Lを更新する。

これを$ Tステップ行う。

3. 高レベル（遅い）計算

H-moduleはL-moduleの最終状態 $ z^Lを使用して自身の状態 $ z^Hを更新し、L-moduleに新しい計算コンテキストとして提供して2に戻る。

この2と3の往復を$ Nサイクル行う。

4. 出力

最終的な予測 $ \hat{y}は、H-moduleの最終隠れ状態 $ z_{NT}^Hから出力ネットワーク $ f_Oを通じて抽出される。

NotebookLM

概要

この論文は、階層的推論モデル (HRM) と呼ばれる新しいリカレントニューラルネットワークアーキテクチャを紹介しています。HRMは、人間の脳における階層的処理とマルチタイムスケール処理からインスピレーションを得ており、低レベルモジュールと高レベルモジュールという、互いに依存する二つのリカレントモジュールを使用して、複雑な推論タスクを効率的に実行します。

このモデルは、既存の大規模言語モデル（LLM）で一般的な思考連鎖（CoT）技術が抱える課題（計算コストの高さやデータ依存性）を克服することを目指しており、わずか約1000個の訓練サンプルと2700万個のパラメータで、数独や複雑な迷路探索などの困難な推論ベンチマークにおいて、CoTモデルを大きく上回る性能を達成しました。

モデル

HRMは、以下の2つの相互に依存する再帰モジュールで構成された再帰型アーキテクチャです。

フォワードパスは、（高レベルな）$ N回のサイクルと、高レベルサイクルごとに$ T回の（低レベルな）タイムステップで展開されます。

高レベルモジュール (H-module)

遅い時間スケールで動作し、抽象的な計画や全体的な戦略の指示を担当します。

H-moduleは1サイクル（$ Tタイムステップごと）に一度だけ更新されます。

この $ z_H の更新によってL-moduleに新たなコンテキストが設定されます。

これにより、L-moduleの計算パスが実質的に「リセット」され、異なる局所的な平衡点に向けた新しい収束フェーズが開始されます。

低レベルモジュール (L-module)

速い時間スケールで動作し、迅速かつ詳細な計算や集中的な探索の実行を担当します。

各サイクル中、L-moduleは安定した局所的な平衡点に向かって収束を示します。

この局所的な平衡点は、そのサイクル中にH-moduleから提供される高レベル状態 $ z_Hに依存しています。

学習の工夫

階層的収束 (Hierarchical Convergence)

L-moduleはサイクル内で収束しますが、H-moduleがその結果を取り込んで更新されることで、L-moduleの計算パスが「リセット」され、次の計算フェーズが開始されます。

この仕組みにより、HRMはH-moduleが全体の問題解決戦略を指示し、L-moduleが各ステップに必要な集中的な探索や洗練を実行するという、入れ子的な計算シーケンスが実現されます。

効率的な学習（勾配近似）

HRMは、再帰型ネットワークの学習で一般的に使用される、メモリ集約型なBPTT（Backpropagation Through Time）を必要としません。代わりに「1ステップ勾配近似」という効率的な方法を採用しており、これはスケーラブルで、脳の学習メカニズムとも整合性が高いとされています。

適応的な計算時間 (ACT)

HRMは、タスクの複雑さに応じて必要な計算リソースを動的に調整するAdaptive Computational Time (ACT) 戦略を組み込んでいます。

実装

HRMは、リカレントなフレームワーク内にTransformerの計算ユニットを組み込むことによって、計算深度と安定性を両立させているリカレントTransformerモデルだと言えます。

全体の構造：RNNアーキテクチャ

HRMは、リカレントアーキテクチャとして提案されています。

HRMは、訓練の安定性と効率性を保ちながら、顕著な計算深度を達成するために設計されたリカレントアーキテクチャです

モジュールの実装：Transformerブロック

HRMのHモジュールとLモジュールは、現代のLLMに見られる工夫（RoPE、GLU、RMSNormなど）が組み込まれたエンコーダーオンリーのTransformerブロックを用いて実装されています。

HRMの学習方法

HRMは、複雑な推論タスク（ベンチマーク）の入出力例を非常に少数だけ与えられ、それらのタスクを中間ステップの言語化なしに直接、そしてゼロから（事前学習なしに）学習するというアプローチを採用しています。

1. 事前学習とCoTの不使用

HRMは、大規模言語モデル（LLM）で一般的に行われる事前学習（pre-training）を行わず、また、推論によく使われるChain-of-Thought（CoT）のデータや教師も使用しません。CoTとは異なり、HRMは中間過程の明示的な教師なしに、単一の順方向パスで順次的な推論タスクを実行します。

2. 直接的な訓練（Direct Prediction）

HRMモデルはランダムな重みで初期化され、入力と出力のペアを使用したsequence-to-sequenceの設定で訓練されます。

これは、ベースラインとして言及されている「Direct pred」（CoTや事前学習なしで直接予測を行うこと）と正確に同じ訓練設定です。

3. 少数の訓練サンプル

HRMは、複雑な推論タスクにおいてデータ効率が非常に高いという特徴があります。ARC-AGI、Sudoku-Extreme、Maze-Hardといった挑戦的なベンチマークに対し、タスクごとにわずか約1000個の訓練サンプルのみを使用して結果を達成しています。これは「small-sample learning scenarios（少サンプル学習シナリオ）」に焦点を当てた実験です。

例えば、ARC AGI Challengeでは、公式データセット（約1000例）のみを使用してゼロから訓練されています。

検証条件

https://scrapbox.io/files/68ce21783868403371abee55.png

NotebookLMが作成

結果

https://gyazo.com/06b01c464896dc904572f39cea514526

論文より引用

https://scrapbox.io/files/68ce2812904cda135f98df3e.png

NotebookLMが作成（レンダリングの問題を手動修正）

ーーー

2025/9/19 23:35

original：/tomiokario-close/Hierarchical Reasoning Model