責任あるスケーリングポリシー

https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf

序文

AI モデルの能力が向上するにつれて、Anthropic は、AI モデルが大きな経済的および社会的価値を生み出すと同時に、深刻化するリスクをもたらすと考えています。この文書では、これらのリスクを管理するための具体的な枠組みに対する公約を表明します。この枠組みは、時間の経過とともに進化していきますが、初期の段階において明確な期待と説明責任を確立することを目指しています。

私たちは、これらのコミットメントを、AI モデルによって直接引き起こされ、AI モデルがなければ発生しなかったであろう、大規模な被害（例えば、数千人の死者または数千億ドルの損害）として定義される、破滅的リスクに特に焦点を当てています。

破滅的事態の長期的影響は、これよりもさらに深刻になる可能性があります。

AI はリスクのスペクトルを表しており、これらのコミットメントは、このスペクトルのより極端なリスクに対処するように設計されています。この取り組みは、誤情報、バイアス、毒性などの有害事象の軽減、社会的影響の研究、顧客プライバシーの保護、堅牢で信頼性の高いシステムの構築、人間の価値観との整合性のためのConstitutional AI などの技術開発など、AI セーフティの他の分野における私たちの取り組みを補完するものです。

これらのコミットメントは、主に、将来のより強力なバージョンの Claudeの内部テストと開発プラクティスに関連するものであることに注意してください。これらのコミットメントは、Claude の現在の使用や Anthropic の現在の製品（私たちがすでに実施している安全対策を超えて）を変更するものではありません。

Framework

私たちの計画の中心となるのは、危険な生物学的物質の取り扱いに関する米国政府のバイオセーフティレベル（BSL）基準を参考に、大まかにモデル化された AI セーフティレベル（ASL）の概念です。

私たちは、潜在的なリスクの増加を表す一連の AI 能力の閾値を定義しています。各 ASL では、前の ASL よりも厳格な安全性、セキュリティ、および運用上の対策が求められます。

もちろん、ASL の高いモデルは、より強力な有益なアプリケーション（破滅的リスクを回避する能力を含む）にも関連している可能性が高いため、私たちの目標はこれらのモデルの開発を禁止することではなく、適切な予防措置を講じた上で安全に使用できるようにすることです。

https://scrapbox.io/files/669deba6347502001c7f95d6.png

各 ASL に対して、このフレームワークでは、大きく分けて次の 2 つのクラスのリスクを考慮します。

展開リスク

強力な AI モデルの積極的な使用によって生じるリスク。

これには、ユーザーが API やその他の公開インターフェースにクエリを実行することによって引き起こされる被害、および内部ユーザー（不正アクセスまたは悪意のあるユーザー）による悪用が含まれます。私たちの展開安全対策は、強力な AI モデルをいつ安全に展開できるかを規定することで、これらのリスクに対処するように設計されています。

封じ込めリスク

強力な AI モデルを単に保有していることから生じるリスク。

例としては、

(1) その一般的な能力のために、悪意のある人物に盗まれて使用された場合に大量破壊兵器の製造を可能にする可能性のある AI モデルを構築すること

(2) 内部使用中に自律的にエスケープするモデルを構築することが挙げられます。私たちの封じ込め対策は、モデルをいつ安全にトレーニングできるか、またはトレーニングを継続できるかを規定することで、これらのリスクに対処するように設計されています。

hiroya_iizuka.icon リスクをこのように2つに分けて考えると、わかりやすい

より高い ASL に準拠することは、単なる手続き上の問題ではなく、モデルの安全性（これは一般的には今日では不可能です）、レッドチーミング中に破滅的リスクを誘発できないことの証明（単にレッドチーミングを実行するというコミットメントではなく）、および/または異常に厳格な情報セキュリティ管理を実証するために、研究や技術的なブレークスルーが必要になる場合があります。

したがって、ASL スキームに従うという Anthropic のコミットメントは、スケーリング能力が対応する ASL の安全手順に準拠する能力を超える場合はいつでも、スケーリングを一時停止し、/または新しいモデルの展開を遅らせることを意味します。

hiroya_iizuka.icon とは書いてあるものの、Anthropic CEOの発言: 人類に脅威をおよぼすAIはいつくるか？の発言を見ると、完璧ではないよねと伺える。

BSL と比較した ASL スキームの課題の 1 つは、私たちの現在の能力を超える ASL は、これまで構築されたことのないシステムを表していることです。これは、BSL では、最高レベルに現在存在する特定の危険な病原体が含まれているのとは対照的です。したがって、ASL システムには、避けられない「飛行中の飛行機の構築」という側面があります。

hiroya_iizuka.icon まさに自分もこの例えを思い浮かべた

私たちは、他の条項が合理的に規定される前に、このポリシーの多くの条項に基づいて行動を開始する必要があります。

すべての将来の ASL とその安全対策を今すぐ定義しようとするのではなく（それはほぼ確実に時の試練に耐えられません）、代わりに反復的なコミットメントのアプローチを採用します。反復的とは、ASL-2（現在のシステム）と ASL-3（次のリスクレベル）を今定義し、ASL-3 に到達するまでに ASL-4 を定義することを約束し、その後も同様にしていくことを意味します。

https://scrapbox.io/files/669dede067f7bc001df37b1a.png

hiroya_iizuka.icon 飛行中の飛行機の構築だから、やむを得ないよね。予測できない。

この文書の後半では、ASL-4+ について推測していますが、それはあくまでも私たちの現在の考え方と初期の準備（これは ASL-4 に近づくにつれて大きく変化する可能性があります）を示すためだけです。

この文書は、以下に説明する「更新プロセス」に従って、さらに詳しく学習するにつれて定期的に更新されます。更新には、より高い ASL レベルの定義と、既存のレベルと安全対策に対する軌道修正の両方が含まれます。また、AI リスクアセスメントと安全性/セキュリティ対策に取り組んでいる他のグループからの、この文書に関する意見も歓迎します。

破滅的リスクの原因

私たちの現在の理解では、ますます強力になる AI モデルからの破滅的リスクの原因は、少なくとも 2 つの一般的なものがあるとされています。初期のコミットメントでは、これらのリスクを念頭に置いて、評価と安全対策を設計します。

悪用

AI システムはデュアルユース技術であるため、AI システムが強力になるにつれて、CBRN やサイバー脅威の作成を支援するなど、意図的に大規模な被害を引き起こすために使用されるリスクが高まります。

自律性と複製

AI システムの規模が拡大し続けるにつれて、AI システムは自律性を高めることができるようになり、その結果として、AI システムが拡散し、そのようなシステムを制御するための現在の方法の不完全さのために、設計者やユーザーの意図に反する方法で動作する可能性があります。

hiroya_iizuka.icon Summer Warsの世界...

このようなシステムは、誰も意図的に悪用しようとしなくても、破滅的リスクの原因となる可能性があります。

AI システムに関する理解が深まるにつれて、これらのアイデアを修正および洗練していく可能性があります。

初期コミットメント

私たちの責任あるスケーリングに関する初期のコミットメントは、以下の要素で構成されています。これらは以下に視覚化され、この文書の残りの部分で詳しく説明されています。

ASL-2:

私たちの現在の最先端モデルで実施することを約束するセキュリティと安全対策。その多くは、私たちが以前からコミットしてきたものです。

ASL-3:

近未来のモデルで発生する可能性があると私たちが考えている危険な能力のセットと、そのようなモデルをトレーニングする前に実装することを約束する封じ込め対策、および展開する前に実施することを約束する展開対策。

ASL-4 反復コミットメント:

ASL-3 モデルを初めてトレーニングする前（つまり、ASL-3 評価がトリガーされた後もトレーニングを継続する前）に、ASL-4 評価を定義することを約束します。

同様に、ASL-4 モデルをトレーニングする前に ASL-5 評価を定義することを約束し、その後も同様にしていきます。

評価プロトコル:

モデルがより高い ASL の安全対策を必要とする前に警告サインを検出するために、危険な能力についてモデルをいつ、どのように評価するかというプロトコル。

モデルの能力レベルが実装されている封じ込め対策を超える前にトレーニングを一時停止することを約束します。

手続き上のコミットメント:

前の箇条書きのコミットメントに対する検証可能なコンプライアンスを確保するための一連の透明性と手続き上の対策。

特に、私たちは、新しい情報に対応して現在の安全レベルを変更し、将来のレベルを定義するための正式なプロセスにコミットします。

上記のスキームは、すべての ASL を最初に定義しなくても、常に次のモデルのトレーニングと展開を管理する一連の安全対策を確保するように設計されています。この文書の後半では、より高い ASL について推測していますが、これらは非常に推測的なものであり、最終バージョンとは大きく異なる可能性があることを強調しておきます。

hiroya_iizuka.icon 推測できないから、しょうがないよね。

私たちの願いは、広範な ASL フレームワークが、たとえより高い ASL の実際のコンテンツを時間の経過とともに開発する必要があるとしても、非常に強力な AI にまで拡張できることです。

https://scrapbox.io/files/669df126004af0001debadb5.png

表からわかるように、私たちの最も重要な即時コミットメントには、ASL-3 封じ込めの高いセキュリティ基準と、徹底的なレッドチーミングで破滅的事態のリスクがないことが判明するまで ASL-3 モデルを展開しないというコミットメントが含まれています。

私たちは、これらが今後 1～2 年で現実のものとなる可能性のある、困難で拘束力のある制約であり、満たすためにはかなりの努力、投資、計画が必要になると予想しています。

以下略