Titans: Learning to Memorize at Test Time

o1 Pro.icon以下は論文「Titans: Learning to Memorize at Test Time」の概要を日本語で簡潔にまとめたものです。

背景と目的

従来のTransformerはアテンションを用いた短期的な依存関係のモデル化が強みですが、計算コストが文脈長に対して二乗に増大するため、長大な文脈への適用が難しい問題があります。また、RNN（再帰型ニューラルネットワーク）は長期依存を扱いたいものの、固定次元の隠れ状態に情報を詰め込むことになり、スケーラビリティや高精度化が課題でした。

本研究では、人間の「短期記憶（一時的に保持）」と「長期記憶（永続的に蓄積）」という二種類の記憶モデルに着想を得て、長大な入力列でも効率的・高精度に学習・推論可能な新しいニューラル長期記憶モジュールを提案します。このモジュールをTransformerなどの短期メモリ（アテンション）と組み合わせた新ファミリー「Titans」を構築し、高い汎用性を持つ長文処理モデルを実現します。

中核となる手法：ニューラル長期記憶モジュール

基本アイデア

テスト時にもパラメータを更新しながら動作する「メタ学習的」な構造を採用し、シーケンス中の情報を“その場で”モジュール自身のパラメータ（重み）として蓄積します。

サプライズに基づく更新

「予測を大きく裏切る入力ほど記憶されやすい」という人間の記憶の性質を取り入れ、入力に対する勾配量（＝サプライズ度合）を手掛かりに重みを更新します。さらに、勾配のモーメンタム項を導入することで「ある時点のサプライズが少し続く」場合にも対応し、重要な情報を長めに保持します。

忘却機構

重みに対して学習率と合わせて「重み減衰（weight decay）」のゲートを導入することで、不要となった情報を逐次的に消去し、メモリ容量を自動制御します。

深いメモリ構造

単なる線形変換ではなく多層MLPなどの深層構造を採用可能で、より複雑な長期パターンを表現できます。

Titansアーキテクチャ

Titansは「短期＋長期＋永続（タスク知識）」の3要素を組み合わせた新しい系列モデルファミリーです。提案では、長期メモリモジュールの組み込み方法として以下3種を提示しています。

MAC (Memory as a Context)

長期記憶モジュールが返す「古い情報」を、アテンションの入力コンテキストとして一緒に処理。

アテンションが「今必要な過去の情報」を取捨選択しながらメモリに格納する。

MAG (Memory as Gating)

ショートウィンドウ・アテンション（短期記憶）と長期メモリの二系統を並行して走らせ、最終的にゲート（非線形結合）で統合。

MAL (Memory as a Layer)

ネットワークのある層として長期メモリを挿入し、そこを経由した後に通常の（あるいはスライディングウィンドウ型の）アテンションを行う。

どの方式も、アテンションが「局所的に正確な依存関係」を捉え、長期メモリモジュールが「過去全体をダイナミックに蓄積・参照する」役割を果たす構造になっています。

実験結果

言語モデリング・推論課題

WikiやLAMBADAなどの長文言語タスク、物理常識や機械読解タスクで、Transformer系や最新の線形再帰モデル（Mamba, DeltaNetなど）を上回る性能を示します。

Needle in a Haystack（長大文からの正確な情報取り出し）やBABILongなど

膨大なダミー文脈の中から必要情報を抜き出すタスクに強く、最大数百万トークン規模の文脈にもスケールできることを確認。

ゲノム配列モデリングや時系列予測などでも有効性が示され、自然言語以外の多様な系列データに適用可能。

まとめ

提案手法は「長期メモリ（勾配ベース）＋短期メモリ（アテンション）＋永続的タスク知識」の3つを組み合わせており、テスト時にも長期メモリを学習し続ける構造が大きな特徴です。

忘却ゲート＋モーメンタム付きサプライズ指標により、長期間にわたる情報を効果的に圧縮・保持し、不要情報は削除できます。

実験では多様なベンチマークでTransformer系や既存リカレント系を上回る性能を示し、非常に長いコンテキストにも適用可能なモデルとして高い汎用性を示しました。

以上が論文の要点です。Titanアーキテクチャは、テスト時における長期学習を組み込む新たなアプローチとして注目されます。