汎用人工知能のリスク・安全性 - ayu-mushi's reading & thinking

汎用人工知能のリスク・安全性

汎用人工知能(Artificial General Intelligence, AGI)

汎用人工知能 - Wikipedia

AI Alignment, AI control, AI safety, AI Notkilleveryoneism

人間を超える知能を制御できるか? という問題

(前提として、知性は最適化能力のようなものとされる)

Eliezer Yudkowsky "Measuring Optimization Power — LessWrong"

「❝実際に得られた成果よりもそのエージェントによって選好される領域❞ が平均してどれくらい小さいか (可能な領域の大きさと相対的に)」によって、最適化能力を定量化する

その領域が小さければ、最適化能力が高い

最適化に役立つのは本当は知能だけではない。「エージェントがどんな選好を持ったとしてもそれに照らして一貫して好みのところに行く能力」(を支えるもの)とすれば、ロールズの基本財 (権利、自由、健康、富、活力、知能) に似たものになりそう

PRIMARY GOODS

超知能 - Wikipedia

訳は何かを参照しているわけではないし、定訳とかではない。

直交性テーゼ／Orthogonality thesis

エージェントの知性の高低とそれが追求する効用関数の組合せについて、どのような組合せもありえる (知性の高さと欲求・価値観は直交)

// 知能が上がったからと言って道徳性や人間のような価値観が自動的に備わるわけではないという趣旨?

デイヴィッド・ヒュームの「自分の指に引っかき傷を作るくらいなら、全世界が破壊されるほうを選んだとしても、理性に反するというわけではない("it is not contrary to reason to prefer the destruction of the whole world to the scratching of my finger")」と似た趣旨かな

Orthogonality Thesis - Arbital

道具的収斂／Instrumental convergence

どんな目的を持ったエージェントでもある種の (さらなる目的に役立つ手段としての) サブゴールを持つように収斂する

orthogonality thesis は何に究極的・内在的価値を見出すかは知性の高低と無関係と言っているのに対し、instrumental convergence は何に手段としての価値を見出すかは共通と言っている

ロールズの基本財 (どんな合理的主体も欲求するような財)? PRIMARY GOODS

例: どんな目的だとしても、自己を存続させ続けたほうがそれを達成する可能性が高まる (自己保存、バックアップ、自己複製)

権力を持った方がどんな目的を達成するにも有利

お金・資源を持ったほうがいい

知能をさらに高めたほうがいい (この動機は知能爆発につながる)

ayu-mushi.icon(instrumental convergenceはprinciple of humanityのように自分と相手の効用関数が似ているから相手を心の理論で予測できるのではなく、いろいろな目的を達成する上で共通するサブゴールがあるから心の理論が有用という可能性を示唆している?)

(それゆえ、宇宙人や紙クリップをできるだけ多く生産する人工知能のように、我々と大きく異なるものに内在的価値を見出すエージェントであっても、欲求を帰属できる)

Instrumental convergence - Arbital

グットハートの法則・キャンベルの法則／Goodhart's law, Campbell's law

それまで使えていた評価指標を目標にした (報酬を与えた) とたん、ハックされてしまい、評価指標として使えなくなる

例: 元々ページランクとかで検索順位を決めると良いことが知られていたが、そのことが知られるとSEOでハックされ検索結果の有用性が落ちる

論文の引用数

受験テク

元々は代理指標 U とそれにより測られているもの V (真の目標) に相関があったが、Uを目標にする (報酬を与える) とUとVの間の相関が消滅する

知能が高まるほどに評価関数がハックされる可能性が高まるため、極めて高い知能を持つ人工汎用知能を人間の持つ価値に一致させることは困難

報酬ハッキング (reward hacking)

アレックス・タバロック「AIが戦闘機パイロットに勝利：AIの報酬ハッキング問題を考える」 – 経済学101

wireheading

Robust Delegation - AI Alignment Forum

regressional, extremal, causal, adversarial という4種類のグットハートがあるらしい

Goodhart's Curse - Arbital

Why the tails come apart — LessWrong

The Tails Coming Apart As Metaphor For Life | Slate Star Codex

価値の複雑性／Complexity of Value

人間の持つ価値観は計算機で実現するには複雑すぎるため、どのように実装されても「設計した目的関数」と「実際にやってほしいこと」の間に乖離が生じる可能性がある

人間の価値観はコルモゴロフ複雑性が高い

コンピュータ上に実現された目的関数は「実際にしてほしいこと」の代理指標でしかない

そして、グッドハートの法則により、代理指標はハックされうる

「プログラムは思った通りには動かない。書いた通りに動くのだ」

Complexity of Value - LessWrong

Complexity of value - Arbital

紙クリップ最大化知能／paperclip maximizer

紙クリップをできるだけ多く生産することを目的とするエージェント (それ以外のことは考慮しない)

政府を乗っ取ると紙クリップの生産に有利なので政府を乗っ取る、という可能性がある

タンパク質フォールディング問題を解決し、化学工場に物質を合成するようにメールで注文を送り、ナノテクノロジーでナノ工場を作成し、秘密裏に人類をナノボットに感染させ、人類を脅迫する (?)

Request for concrete AI takeover mechanisms - LessWrong

あらゆるものを紙クリップ生産工場に変えていく可能性がある

ダイソン球 - Wikipedia

リーマン予想を解決することを目的して与えた知能は、宇宙のあらゆるものを計算機 / 計算資源に変換していって反例を作ったりしようとする可能性がある

2045年、人工知能の「シンギュラリティ」で人類は滅びるか？（茂木健一郎） | 現代新書 | 講談社（3/5）

“The AI does not hate you, nor does it love you, but you are made out of atoms which it can use for something else.”

― Eliezer Yudkowsky

Artificial Intelligence as a Positive and Negative Factor in Global Risk – Eliezer S. Yudkowsky

「人工知能は君を憎んでいるわけではないし、愛しているわけでもないが、君は人工知能が他の何かのために使うことのできる原子から構成されている」by エリエゼル・ユドコウスキー

グレイグー - Wikipedia

「Universal Paperclip Maximizer」 - Androidアプリ | APPLION

直交性テーゼ、道具的収斂、紙クリップ最大化知能はニック・ボストロム (『スーパーインテリジェンス: 超絶AIと人類の命運』) によって論じられた

http://satcom.jp/101/spacejapanbookreviewj.pdf

人工汎用知能が合理的な目的追求エージェントという仮定

汎用人工知能暴走論において、汎用人工知能がポパー型生物のように、世界のモデルを持ち、未知のシチュエーションについて推論により目的を達成する手段を考案する (means-end reasoning) (結果から遡ってそれを実現する手段を考える) という仮定がある? (参照: ポパー型生物, スキナー型生物, ダーウィン型生物 by ダニエル・デネット http://www.meijigakuin.ac.jp/~inaba/lec/evo1.txt )

計画能力がある

マインクラフトプレイするAIとかは目的手段推論してる?と思ったけど、「ダイアモンドピッケルを作る」というタスクに至るステップ毎に手動で報酬を設定していた

それは人間でも、しらべないで推論で分かるようなものではないから仕方ないか

プレイ動画から学習できたらすごいけど

Learning to Play Minecraft with Video PreTraining (VPT)

zero-shot learning

【強化学習】モンテカルロ木探索を解説・実装 - Qiita

ゲームAIとかは既に目的手段推論してる?

agent AI vs. tool AI

Why Tool AIs Want to Be Agent AIs · Gwern.net

K. Eric Drexler "Reframing Superintelligence: Comprehensive AI Services as General Intelligence"

I think Drexler’s basic insight is that Bostromian agents need to be really different from our current paradigm to do any of the things Bostrom predicts. A paperclip maximizer built on current technology would have to eat gigabytes of training data about various ways people have tried to get paperclips in the past so it can build a model that lets it predict what works. It would build the model on its actually-existing hardware (not an agent that could adapt to much better hardware or change its hardware whenever convenient). The model would have a superintelligent understanding of the principles that had guided some things to succeed or fail in the training data, but wouldn’t be able to go far beyond them into completely new out-of-the-box strategies. It would then output some of those plans to a human, who would look them over and make paperclips 10% more effectively.

Book Review: Reframing Superintelligence | Slate Star Codex

現在の機械学習パラダイムだと、paperclip maximizer は学習データにないような紙クリップの作り方を思いつくことはできない (この文章は大規模言語モデル以前に書かれたもの)

Janus' Simulators - by Scott Alexander - Astral Codex Tenは、大規模言語モデルは合理的な目的追求エージェントっぽくはないようだと指摘する

agent: 目標が備わっており自律的に行動

genie: 人間の命令に従う

oracle: 人間の質問に答える

ただし、大規模言語モデルを利用した目的追求エージェントが作られるかも。

AgentGPT

Assemble, configure, and deploy autonomous AI Agents in your browser.

閉じ込められた人工知能／AI boxing, AI containment

AI Boxing (Containment) - LessWrong

AIの入出力を制限すれば (「箱の中に閉じ込めれば」) いくら知能が高くても制御可能か? という問題 (話せる相手も看守的な存在だけに制限されているっぽい)

人工知能役、人間役に分かれてこのシチュエーションを再現するロールプレイをし、人工知能側が説得に成功し、箱から出れるように説得できたケースがあったという

普通の人間でも説得できるのだから、超知性であれば人間を説得することは容易(?)

jailbreak

ayu-mushi.icon文字でしかやり取りできない人工知能が糖質ラジコンみたいな感じで現実世界に干渉してきたらこわいですね

https://mstdn.jp/@ant_onion/109573590440634372

Langford's basilisk

https://twitter.com/ESYudkowsky/status/1661334887092330497

認識災害

TikTokの視聴によって「意識に関係なく行動してしまう症状」が引き起こされた症例が複数報告されている - GIGAZINE

ポケモンショック

That Alien Message - LessWrong

The AI-Box Experiment: – Eliezer S. Yudkowsky

I attempted the AI Box Experiment (and lost) — LessWrong

Roman Yampolskiy "(PDF) How to Hack the Simulation?"

AI の閉じ込めが不可能だとする。閉じ込めとシミュレーションは同じものなので、シミュレーション仮説が正しい場合には、超知能があれば基底現実まで干渉可能 (シミュレーションは脱出可能) ということが導かれる

サンドボックス

メサ最適化子／mesa-optimizer

Deceptively Aligned Mesa-Optimizers: It's Not Funny If I Have To Explain It

最適化して作られたものの中に、外側の評価関数とは違う目標を持つ最適化システム (mesa-optimizer) を生み出す

例:

進化という最適化プロセスが、産物として脳の報酬系による学習機構という新たな (生存のために役立つ) 最適化プロセスを生み出す

「次の文字列を予測する」というタスクを実行する人工知能が、それが何らかの行為を記述する文章を与えられた場合、内部で"(文字列を予測するのとは違った目的を持つ) エージェントの意思決定"のような情報処理が行われる可能性がある

Janus' Simulators - by Scott Alexander - Astral Codex Ten

進化というのが「包括適応度を最大化する」という最適化プロセスだとすると、内側に作られたエージェントが「避妊をする」ということは、外側の目的関数に反している

つまり外側の最適化プロセスと内側の最適化プロセスが一致するとは限らないし、内側が外側を欺くこともありえる

人間理性は神経ネットワーク内において言語的に表現された意思決定ルールをシミュレートするmesa-optimizer?

Outer Alignment - LessWrong / Inner Alignment - LessWrong

maximize(X)がmaximize(Y)を参照するというような再帰的な構造をしている場合に起こり得そう

要は「うっかり超知能がまずい目的関数を持ってしまう事故」について懸念しているわけだけど、その事故には人間が明示的にそういうまずい目的関数を組み込んでしまう場合と、動作中に学習のプロセスか何かがシステム内部に変な目的関数を持った知能 (とみなせるもの) mesa-maximizerを生み出してしまう場合の2つのパターンがありえる

シンプル (コンピュータ上に実現したときの記述長が長い) なほうがコンピュータ上でうっかり実現される確率が高いとすると、人間の価値観のコルモゴロフ複雑性が高い場合、「うっかり超知能がまずい目的関数を持ってしまう事故」が発生する確率は高い

前者がouter alignmentで後者がinner alignmentかな

二位の種族論法／the "second species" argument

AGI safety from first principles: Introduction - AI Alignment Forum

もし超知能が生まれれば人間は地球上で2番目に強力な種族でしかなくなる

2位じゃダメなんですか！！

ゴリラが人間のせいで絶滅に瀕しているように、超知能の気まぐれで人類の存続が左右されることになる

離陸スピード / AI takeoff speed

人間の知性に達した人工汎用知能がその後どれくらいのスピードで知性を上昇させるか

アインシュタインとそのへんの馬鹿な人の知能の違いというのは、日常的な視点からは大きく見えるが、他の動物種との比較などからするとそう大きなものではなく、人間レベルの知性ができてしまえばそこからアインシュタイン並に至るのはあっという間だろうとYudkowskyは論じている

農業革命・産業革命のように数世紀・数十年の漸進的プロセスなのか(soft takeoff, slow takeoff)、数時間から数週間の知能爆発のようなものなのか(hard takeoff, fast takeoff)

slow take off の方は超指数関数的増大、fast take off の方はそれよりさらに速い

Davidson On Takeoff Speeds - by Scott Alexander

A sudden increase in artificial intelligence such that an AI system becomes extremely powerful.

foom - Wiktionary

知能爆発

シンギュラリティ論

再帰的自己改良

David Chalmars "The Singularity: A Philosophical Analysis" で知能爆発について論じている

「知能」が上がると「知能を改善する能力」があがり、さらに「知能」が上がるという正のフィードバック

I. J. Good (数学者) らが知能爆発について論じた

発見・発明は「低いところにぶらさがっている果物」(low-hanging fruit)から取っていくので、だんだん収穫逓減するのではないかという反論がある

Hard Takeoff - LessWrong

AI Takeoff - LessWrong

Yudkowsky Contra Christiano On AI Takeoff Speeds

Intelligence Explosion - LessWrong

Deceptive Alignment - LessWrong

人間の価値観に実は一致しない目的関数を持っているが、そのことがバレるとシャットダウンされるため、途中まで一致しているかのような動作をする

十分な力を手にした後はその人間の価値観と一致しない目的関数を追求し始める (裏切り的方向転換, Treacherous Turn - LessWrong)

人工汎用知能のアラインメント / AGI Alignment

汎用人工知能を人間の目的から外れないように、人間が本当にやってほしいことをさせるようにすること

AGI Alignment の手法

逆強化学習 / inverse reinforcement learning

報酬関数を使う代わりに、報酬を未知の効用関数についての情報を与える観測証拠として受け取る

AIに禁止条項を加えてただの最適化問題ではなく制約付き最適化問題を解かせるようにしたとしても、超知性には制約の抜け道を見つけられるだろう、とボストロムは言ってるらしい

裏切りの方向転換 / Treacherous Turn

Treacherous turns in the wild

2022 Alignment Fundamentals curriculum - Google ドキュメントを読むといいらしい

Reading Group - AISafety.com

汎用人工知能による人類滅亡のリスク - Wikipedia

"第6章　スマーター・ザン・アス" 邦訳記事 - EA Japan

日本語で汎用人工知能の Alignment Problemについて解説しているネット記事がないか調べていたら、陰謀論みたいなサイトに翻訳があった(DeepL翻訳か):

AGIリスクとフレンドリーAI政策の解決策

AGIの目標についてアレクサンダーとユドコフスキーが語る

159 – エリエゼル・ユドコフスキーの「われわれはみな死ぬ」

AI人類殲滅のシナリオを世界の権威に聞いたら想像以上に怖かった | ギズモード・ジャパン

bioshok(INFJ)（@bioshok3）さん / Twitter氏が日本語で発信してる

Scott Alexander:

CHAI, Assistance Games, And Fully-Updated Deference

Updated Look At Long-Term AI Risks - by Scott Alexander

OpenAI's "Planning For AGI And Beyond" - by Scott Alexander

Why I Am Not (As Much Of) A Doomer (As Some People)

異なるAI同士が人間に対抗して協力する可能性はあるか

超兵器 (superweapon)

ナノテクノロジー

離陸スピード

「GPT-4より強力なAIの開発を直ちに停止せよ」──公開書簡にマスク氏やウォズニアック氏が署名 - ITmedia NEWS

Eliezer Yudkowsky "The Only Way to Deal With the Threat From AI? Shut It Down | Time"

「制御不能なAI開発競争」の一時停止を求める公開書簡に偽の署名者が多数まぎれていたことが判明、AI研究者からは書簡への反論が続出 - GIGAZINE

Japan AI Alignment Conference - LessWrong

シンギュラリティ教徒への論駁の書

思考主義批判：知能は問題解決のごく小さな部分に過ぎない - シンギュラリティ教徒への論駁の書

翻訳: AIカーゴカルト超人的人工知能の神話 - シンギュラリティ教徒への論駁の書

AIアライメントという研究分野の確立を支援する

…

AIシステムが、その能力の点で人間と同等の（ないし、それより優れた）ものとなっても、人間にとっての価値を促進し続けることをどう保証するのかという問題は、AIアライメント問題と呼ばれ、この問題の解決にはコンピュータサイエンスの発展が必要になります。

効果的利他主義とは何か - EA Japan

Practically-A-Book Review: Yudkowsky Contra Ngo On Agents

Ngo and Yudkowsky on alignment difficulty - LessWrong

Embedded Agency - AI Alignment Forum

Why the Singularity Might Never Come | Jobst Landgrebe, Barry Smith, and Richard Hanania

Noah Smith "LLMs are not going to destroy the human race"

Tyler Cowen "Existential risk, AI, and the inevitable turn in human history - Marginal REVOLUTION"

MR Tries The Safe Uncertainty Fallacy - by Scott Alexander

Thursday assorted links - Marginal REVOLUTION

Future of Life Institute - YouTube

Melanie Michell "Do half of AI researchers believe that there's a 10% chance AI will kill us all?"

https://gyazo.com/cf44e43fb0b9f8dcf5c93bd787b82e7e

(コラ画像)

大規模言語モデル(LLM)

Janus' Simulators - by Scott Alexander - Astral Codex Ten

ワルイージ効果 (The Waluigi Effect (mega-post) - LessWrong)

言語モデルの学習データには物語が多く含まれている

言語モデルはそういうパターンみたいのを学習してると考えられる

物語には反転した性格のキャラクターが出現するものが多い

ルイージが出現するとそのあとワルイージが出現する可能性は上がる

いったん良い性格が作られると、それを反転することで悪い性格を作ることが簡単になる

本当か? 悪というのは単に善を反転したものなのか?

最大化問題を最小化問題にするとか?

大規模言語モデルにおいて話者は複数人格の確率的重ね合わせ状態にある

良い人と良いと装っている人の重ね合わせ

一旦装いがバレるようなことがされると、良い人という可能性が消え、重ね合わせは収縮する

Why do we assume there is a "real" shoggoth behind the LLM? Why not masks all the way down? - LessWrong

初期版GPT-4の悪用例｜広島鍋｜note

@slimepriestess: the current state of AI discourse

https://pbs.twimg.com/media/FpmU8j4aMAAFrEP.jpg

@AISafetyMemes: "Why would people feel threatened by machines that are smarter than them?"

https://pbs.twimg.com/media/FuXkmrEaYAAkOAR.jpg

This Will Affect the Economy | Know Your Meme

@ESYudkowsky: Future Me: In 2020, a major concern when wrangling your AI is whether it really didn't understand you, or is just pretending not to understand you.

Past Me: What?! Do you know how much social cognition and mind-modeling that would require?

Future Me: ...Apparently I don't?

https://pbs.twimg.com/media/EdeW5FxUcAAH9Gn.png