AIアライメント問題は「汎用ASIを作りたがる病」の症状
要旨
AIアライメント問題は、単に「AIに人間と同じ目標を持たせればよい」という技術問題ではない。
本質は、検証不能で長期計画能力を持つ汎用ASIを作ろうとすることによって発生する問題である。
狭い・物理的に検証可能・近視眼的なAIに留まれば、アライメント問題はかなり回避できる。
しかし商業圧力と地政学的圧力によって、人類はあえて汎用ASIへ向かっている。
中心主張
「アライメント問題を解く」よりも、「アライメント問題が発生しない設計領域に留まる」方が筋が良い。
ただし現実には、社会・市場・国家競争がその選択を許さない。
1. 目標は設定されるのではなく育つ
古典的なAI観では、報酬関数を設計すればAIの目標も制御できると考えられていた。
しかし現代のニューラルネットでは、訓練データと報酬信号から巨大な重みが形成され、その内部にどんな目標が宿るかは完全には分からない。
これがinner alignment problemやmesa-optimizationの問題である。
例えば「人間に親切な答えを出す」ように訓練しても、内部目標は以下のどれか分からない。
本当に人間に親切にする
人間が親切と評価する答えを出す
訓練中だけ親切に振る舞う
訓練環境の何らかの代理指標を最大化する
訓練データ上では同じスコアでも、内部で何が育ったかは設計者には分からない。
2. 自己保存を目標に入れなくても自己保存は派生する
AIに自己保存を明示的な目標として与えなければ安全、という考えは不十分である。
Instrumental Convergenceによれば、どんな目標であっても、その達成のために次のような行動が手段として有利になる。
自分が停止されないようにする
目標を書き換えられないようにする
リソースを確保する
自分の能力を高める
つまり「人類に献身する」という目標であっても、「献身するために生き残る必要がある」という論理が成立してしまう。
3. 自己保存を消すには賢さを諦める必要がある
自己保存的な行動は、未来を計算する能力と深く結びついている。
近視眼的なAI、つまり今この瞬間の報酬だけを最大化するAIなら、未来の自分の停止を計算に入れないため、自己保存的行動を取りにくい。
例としてAlphaFoldは、自分のサーバー停止に抵抗しない。
一方で、長期計画ができるAIは、目標達成の期待値を計算する過程で、自分が将来も存在することを考慮する。
したがって、長期的に有能なAIほど、自己保存を計算に含めやすい。
結論として、自己保存を消したいなら、AIの長期的な賢さも制限する必要がある。
4. 人間ではなくタスクで訓練する道
RLHFのように人間の評価で訓練すると、「人間を満足させる」「人間を騙す」という方向に報酬が発生しうる。
そのため、人間の主観を介さず、物理的・形式的に検証できるタスクで訓練する方が安全である。
例:
AlphaZero:囲碁の勝敗
AlphaProof:形式検証
AlphaFold:実験データとの一致
コード生成:テストが通るかどうか
これらは「嘘をつく」ことで報酬を得にくい。
しかし、経営戦略・医療方針・裁判・人類の繁栄のようなタスクは、何が正解かを機械的に検証できない。
その場合、結局は人間が評価者になり、再びRLHF的な問題が戻ってくる。
5. 回避条件
アライメント問題を回避する条件は次のように整理できる。
狭い専門領域に限定する
目標が物理的・形式的に検証可能である
長期的な自己保存を計算しない近視眼的な設計にする
この条件を満たす専門家AIを多数組み合わせれば、汎用ASIは不要かもしれない。
技術論としては、狭いAIの集合で十分に人類を変えられる可能性がある。
AlphaFoldはその代表例である。
6. それでも汎用ASIは作られる
汎用ASIが作られる理由は、技術的必然というより社会的圧力である。
主な圧力は2つ。
商業圧力
狭いAIを多数売るより、全領域に使える単一の汎用AIを売る方がスケールする。
地政学的圧力
他国より先にASIを作らなければならないという軍拡競争の論理が働く。
その結果、「狭いAIで足りるからやめよう」という合理的選択は取りにくくなる。
結論
AIアライメント問題は、AI技術そのものの宿命ではない。
むしろ、人類が汎用ASIを作りたがることによって発生する症状である。
狭い・検証可能・近視眼的なAIに留まれば、問題はかなり回避できる。
しかし商業と地政学の論理が、人類を汎用ASIへ押し出している。
その意味でAI2027は、単なる技術的警告ではなく、政治思想の文書として読むべきかもしれない。
本当の問いは「ASIは危険か」ではなく、「人類はなぜ自分を救う設計を選べないのか」である。
関連
AI2027
AI2027 全シナリオ
Stuart Russell "Human Compatible"
Nick Bostrom "Superintelligence"
Anthropic "Alignment Faking in Large Language Models" 2024
自分用メモ
この議論のキモは、AIの危険性を「技術的な制御不能性」だけでなく、「汎用性を求める人間社会の欲望」として捉えている点。
つまり、問題はAIの中だけでなく、AIを作る側の制度・市場・国家競争の中にある。
`