AIエージェントが正社員になるまで10年はかかる
from 2025-10-20
https://youtu.be/lXUZvyajciY
Andrej Karpathy — AGI is still a decade away
Andrej karpathy
@hillbig: Andrej Karpathyの2時間半近くのインタビューでは、今後のAIの見通しや現在の課題と将来について興味深いことを多く話している。既に多くのまとめがでているが私が気になった部分のまとめとコメント。
AIエージェントは人間のインターンや正社員のようなレベルになるまで、今期待されているような1年ではなく10年は必要とされる。現在のモデルには仕事をする上で必要な能力が多く欠けている。
例えば、継続学習の仕組みが備わっていない。今のモデルはコンテキストに記憶された作業記憶は活用でき、こうした情報をモデルの重みに蒸留し、継続学習できるようなものにはなっていない。...
認知コアはおそらく10億パラメータ程度かそれより小さいモデルで実現され、その他の情報は外部参照で実現されるだろう。
計算機が実現するAIは人間に比べれば完璧で膨大な記憶容量を持っているが、むしろこのような完璧な記憶が認知能力、抽象的理解の獲得への妨げとなっている。
むしろ学習中に記憶容量を制限することでAIは情報を検索する必要に迫られ、単なる記憶ではなく、アルゴリズムに基づいた思考と行動を強制することになり、これにより汎用的な知性の獲得につながり可能性がある。
強化学習もフィードバック量が少ないストローで学習情報を吸い上げるようなものであり、何百ものアプローチを試み、偶然正解か不正解にたどり着いたかを元に全経路を強化するものである。
理想的には経路中のどのステップが問題があったかといったような内省を行い、効果的に修正する必要がある。(いわゆる信用割当問題)
しかし、現在のLLMの出力は多様性がなく(今のLLMはデータに対し過剰適合し、このLLMの出力を元に学習しても多様性が失われ続けていく。)、LLMに内省させた修正によって学習していくとモデルは静かに多様性を失っていき一つの状態に収束する崩壊を起こす。
ちなみに、人間もこのような「収束崩壊」は遅す。年齢を経る毎に社会規範に過剰適合し、思考の停滞を起こす。
さらに、LLMが経路途中の状態を評価する問題(いわゆるProcess Reward Model)は真の汎化性を問われる。現在だと方策側が報酬モデルの穴をつきハックされ、全く意味のない状態に陥る。この場合報酬モデルは真の汎化モデルが必要となる。
超知能による経済成長が実現されるとしたら、現在は単一の超知能がサーバー上で新たな技術を考案するという単純なモデルがあるという見方がされがちだが、そうではなく、非常に高度な知能を持つ人間のような思考主体が何十億も存在し、独自の新製品を開発、経済システムにどのように組み込まれるかを自律的に模索している状況になるだろう。
これらのAIシステムは高度なスキルを持つ移民が経済に統合されるのと同様の形で社会に組み込まれていくだろう。産業革命の場合も魔法のような何かがおきたわけではなく100年近くをかけて様々な変化が同時多発的におきる。
人間の文化に相当するものが存在せず、開発における大きな障壁となっている。LLM同士が共同で文書を作成したり、知識を伝承する仕組みができていない。LLMが書いた本を他のLLMが読んで感銘をうけたり衝撃をうけたりするようなものがない。
これは今のLLMの認知能力が幼児レベルにとどまっているためである。博士レベルの試験問題は合格できるものの、認知能力はまだ初期段階にあり文化を創造できる段階にない。