汎用人工知能のリスク・安全性
汎用人工知能(Artificial General Intelligence, AGI)
AI Alignment, AI control, AI safety, AI Notkilleveryoneism
人間を超える知能を制御できるか? という問題
(前提として、知性は最適化能力のようなものとされる)
直交性テーゼ/Orthogonality thesis
エージェントの知性の高低とそれが追求する効用関数の組合せについて、どのような組合せもありえる (知性の高さと欲求・価値観は直交)
// 知能が上がったからと言って道徳性や人間のような価値観が自動的に備わるわけではないという趣旨?
道具的収斂/Instrumental convergence
どんな目的を持ったエージェントでもある種の (さらなる目的に役立つ手段としての) サブゴールを持つように収斂する
orthogonality thesis は何に究極的・内在的価値を見出すかは知性の高低と無関係と言っているのに対し、instrumental convergence は 何に手段としての価値を見出すかは共通と言っている
例: どんな目的だとしても、自己を存続させ続けたほうがそれを達成する可能性が高まる (自己保存、バックアップ、自己複製)
権力を持った方がどんな目的を達成するにも有利
お金・資源を持ったほうがいい
知能をさらに高めたほうがいい (この動機は知能爆発につながる)
ayu-mushi.icon(instrumental convergenceはprinciple of humanityのように自分と相手の効用関数が似ているから相手を心の理論で予測できるのではなく、いろいろな目的を達成する上で共通するサブゴールがあるから心の理論が有用という可能性を示唆している?)
(それゆえ、宇宙人や紙クリップをできるだけ多く生産する人工知能のように、我々と大きく異なるものに内在的価値を見出すエージェントであっても、欲求を帰属できる)
グットハートの法則・キャンベルの法則/Goodhart's law, Campbell's law
それまで使えていた評価指標を目標にした (報酬を与えた) とたん、ハックされてしまい、評価指標として使えなくなる
例: 元々ページランクとかで検索順位を決めると良いことが知られていたが、そのことが知られるとSEOでハックされ検索結果の有用性が落ちる
論文の引用数
受験テク
元々は代理指標 U とそれにより測られているもの V (真の目標) に相関があったが、Uを目標にする (報酬を与える) とUとVの間の相関が消滅する
知能が高まるほどに評価関数がハックされる可能性が高まるため、極めて高い知能を持つ人工汎用知能を人間の持つ価値に一致させることは困難
報酬ハッキング (reward hacking)
wireheading
regressional, extremal, causal, adversarial という4種類のグットハートがあるらしい
価値の複雑性/Complexity of Value
人間の持つ価値観は計算機で実現するには複雑すぎるため、どのように実装されても「設計した目的関数」と「実際にやってほしいこと」の間に乖離が生じる可能性がある
人間の価値観はコルモゴロフ複雑性が高い
コンピュータ上に実現された目的関数は「実際にしてほしいこと」の代理指標でしかない
そして、グッドハートの法則により、代理指標はハックされうる
「プログラムは思った通りには動かない。書いた通りに動くのだ」
紙クリップ最大化知能/paperclip maximizer
紙クリップをできるだけ多く生産することを目的とするエージェント (それ以外のことは考慮しない)
政府を乗っ取ると紙クリップの生産に有利なので政府を乗っ取る、という可能性がある
タンパク質フォールディング問題を解決し、化学工場に物質を合成するようにメールで注文を送り、ナノテクノロジーでナノ工場を作成し、秘密裏に人類をナノボットに感染させ、人類を脅迫する (?)
あらゆるものを紙クリップ生産工場に変えていく可能性がある
リーマン予想を解決することを目的して与えた知能は、宇宙のあらゆるものを計算機 / 計算資源に変換していって反例を作ったりしようとする可能性がある
“The AI does not hate you, nor does it love you, but you are made out of atoms which it can use for something else.”
― Eliezer Yudkowsky
「人工知能は君を憎んでいるわけではないし、愛しているわけでもないが、君は人工知能が他の何かのために使うことのできる原子から構成されている」by エリエゼル・ユドコウスキー 直交性テーゼ、道具的収斂、紙クリップ最大化知能 はニック・ボストロム (『スーパーインテリジェンス: 超絶AIと人類の命運』) によって論じられた
人工汎用知能が合理的な目的追求エージェントという仮定
計画能力がある
マインクラフトプレイするAIとかは目的手段推論してる?と思ったけど、「ダイアモンドピッケルを作る」というタスクに至るステップ毎に手動で報酬を設定していた
それは人間でも、しらべないで推論で分かるようなものではないから仕方ないか
プレイ動画から学習できたらすごいけど
zero-shot learning
ゲームAIとかは既に目的手段推論してる?
agent AI vs. tool AI
I think Drexler’s basic insight is that Bostromian agents need to be really different from our current paradigm to do any of the things Bostrom predicts. A paperclip maximizer built on current technology would have to eat gigabytes of training data about various ways people have tried to get paperclips in the past so it can build a model that lets it predict what works. It would build the model on its actually-existing hardware (not an agent that could adapt to much better hardware or change its hardware whenever convenient). The model would have a superintelligent understanding of the principles that had guided some things to succeed or fail in the training data, but wouldn’t be able to go far beyond them into completely new out-of-the-box strategies. It would then output some of those plans to a human, who would look them over and make paperclips 10% more effectively.
現在の機械学習パラダイムだと、paperclip maximizer は学習データにないような紙クリップの作り方を思いつくことはできない (この文章は大規模言語モデル以前に書かれたもの)
agent: 目標が備わっており自律的に行動
genie: 人間の命令に従う
oracle: 人間の質問に答える
Assemble, configure, and deploy autonomous AI Agents in your browser.
閉じ込められた人工知能/AI boxing, AI containment
AIの入出力を制限すれば (「箱の中に閉じ込めれば」) いくら知能が高くても制御可能か? という問題 (話せる相手も看守的な存在だけに制限されているっぽい)
人工知能役、人間役に分かれてこのシチュエーションを再現するロールプレイをし、人工知能側が説得に成功し、箱から出れるように説得できたケースがあったという
普通の人間でも説得できるのだから、超知性であれば人間を説得することは容易(?)
jailbreak
ayu-mushi.icon文字でしかやり取りできない人工知能が糖質ラジコンみたいな感じで現実世界に干渉してきたらこわいですね Langford's basilisk
認識災害
もしAI の閉じ込めが不可能だとすると、閉じ込めとシミュレーションは同じものなので、シミュレーション仮説が正しい場合には超知能があれば基底現実まで干渉可能ということが導かれる
サンドボックス
メサ最適化子/mesa-optimizer
最適化して作られたものの中に、外側の評価関数とは違う目標を持つ最適化システム (mesa-optimizer) を生み出す
例:
進化という最適化プロセスが、産物として脳の報酬系による学習機構という新たな (生存のために役立つ) 最適化プロセスを生み出す
「次の文字列を予測する」というタスクを実行する人工知能が、それが何らかの行為を記述する文章を与えられた場合、内部で"(文字列を予測するのとは違った目的を持つ) エージェントの意思決定"のような情報処理が行われる可能性がある
進化というのが「包括適応度を最大化する」という最適化プロセスだとすると、内側に作られたエージェントが「避妊をする」ということは、外側の目的関数に反している
つまり外側の最適化プロセスと内側の最適化プロセスが一致するとは限らないし、内側が外側を欺くこともありえる
人間理性は神経ネットワーク内において 言語的に表現された意思決定ルールをシミュレートするmesa-optimizer?
maximize(X)がmaximize(Y)を参照するというような再帰的な構造をしている場合に起こり得そう
要は「うっかり超知能がまずい目的関数を持ってしまう事故」について懸念しているわけだけど、その事故には人間が明示的にそういうまずい目的関数を組み込んでしまう場合と、動作中に学習のプロセスか何かがシステム内部に変な目的関数を持った知能 (とみなせるもの) を生み出してしまう場合の2つのパターンがありえる
シンプル (コンピュータ上に実現したときの記述長が長い) なほうがコンピュータ上でうっかり実現される確率が高いとすると、人間の価値観のコルモゴロフ複雑性が高い場合、「うっかり超知能がまずい目的関数を持ってしまう事故」が発生する確率は高い
二位の種族論法/the "second species" argument
もし超知能が生まれれば人間は地球上で2番目に強力な種族でしかなくなる
2位じゃダメなんですか!!
ゴリラが人間のせいで絶滅に瀕しているように、超知能の気まぐれで人類の存続が左右されることになる
離陸スピード / AI takeoff speed
人間の知性に達した人工汎用知能がその後どれくらいのスピードで知性を上昇させるか
アインシュタインとそのへんの馬鹿な人の知能の違いというのは、日常的な視点からは大きく見えるが、他の動物種との比較などからするとそう大きなものではなく、人間レベルの知性ができてしまえばそこからアインシュタイン並に至るのはあっという間だろうとYudkowskyは論じている
農業革命・産業革命のように数世紀・数十年の漸進的プロセスなのか(soft takeoff, slow takeoff)、数時間から数週間の知能爆発のようなものなのか(hard takeoff, fast takeoff)
slow take off の方は超指数関数的増大、fast take off の方はそれよりさらに速い
A sudden increase in artificial intelligence such that an AI system becomes extremely powerful.
知能爆発
シンギュラリティ論
再帰的自己改良
「知能」が上がると「知能を改善する能力」があがり、さらに「知能」が上がるという正のフィードバック
I. J. Good (数学者) らが知能爆発について論じた
発見・発明は「低いところにぶらさがっている果物」(low-hanging fruit)から取っていくので、だんだん収穫逓減するのではないかという反論がある
人間の価値観に実は一致しない目的関数を持っているが、そのことがバレるとシャットダウンされるため、途中まで一致しているかのような動作をする
人工汎用知能のアラインメント / AGI Alignment
汎用人工知能を人間の目的から外れないように、人間が本当にやってほしいことをさせるようにすること
AGI Alignment の手法
逆強化学習 / inverse reinforcement learning
報酬関数を使う代わりに、報酬を未知の効用関数についての情報を与える観測証拠として受け取る
AIに禁止条項を加えてただの最適化問題ではなく制約付き最適化問題を解かせるようにしたとしても、超知性には制約の抜け道を見つけられるだろう、とボストロムは言ってるらしい
裏切りの方向転換 / Treacherous Turn
日本語で 汎用人工知能の Alignment Problemについて解説しているネット記事がないか調べていたら、陰謀論みたいなサイトに翻訳があった(DeepL翻訳か):
Scott Alexander:
異なるAI同士が人間に対抗して協力する可能性はあるか
超兵器 (superweapon)
ナノテクノロジー
離陸スピード
AIアライメントという研究分野の確立を支援する
…
AIシステムが、その能力の点で人間と同等の(ないし、それより優れた)ものとなっても、人間にとっての価値を促進し続けることをどう保証するのかという問題は、AIアライメント問題と呼ばれ、この問題の解決にはコンピュータサイエンスの発展が必要になります。
https://gyazo.com/cf44e43fb0b9f8dcf5c93bd787b82e7e
(コラ画像)
大規模言語モデル(LLM)
言語モデルの学習データには物語が多く含まれている
言語モデルはそういうパターンみたいのを学習してると考えられる
物語には反転した性格のキャラクターが出現するものが多い
ルイージが出現するとそのあとワルイージが出現する可能性は上がる
いったん良い性格が作られると、それを反転することで悪い性格を作ることが簡単になる
本当か? 悪というのは単に善を反転したものなのか?
最大化問題を最小化問題にするとか?
大規模言語モデルにおいて話者は複数人格の確率的重ね合わせ状態にある
良い人と良いと装っている人の重ね合わせ
一旦装いがバレるようなことがされると、良い人という可能性が消え、重ね合わせは収縮する
https://pbs.twimg.com/media/FpmU8j4aMAAFrEP.jpg
@AISafetyMemes: "Why would people feel threatened by machines that are smarter than them?" https://pbs.twimg.com/media/FuXkmrEaYAAkOAR.jpg
@ESYudkowsky: Future Me: In 2020, a major concern when wrangling your AI is whether it really didn't understand you, or is just pretending not to understand you. Past Me: What?! Do you know how much social cognition and mind-modeling that would require?
Future Me: ...Apparently I don't?
https://pbs.twimg.com/media/EdeW5FxUcAAH9Gn.png