Anthropicの責任あるスケーリングポリシー
https://scrapbox.io/files/65f8eb6a6c97d40024953c05.png
ポイント
AIが発達しすぎると、人類が滅びる可能性が出てくる。
核/バイオ兵器や軍事技術に使われたり...
https://scrapbox.io/files/6699dcd3dae691001c44da8a.png
だからこそ、慎重にならざるを得ない。
RSPは、製品を市場に投入する前に安全性を厳密に実証することが目的
自動車や航空業界における市販前のテストや安全機能の設計のようなもの
壊滅的リスクに対処するための、AI安全性レベル(ASL)を設定した。 https://scrapbox.io/files/65f8ed0052602100242cc964.png
現在のClaudeは、ASL-2
ASLシステムは、AIのスケーリングが必要な安全手順に準拠する能力を上回った場合、より強力なモデルのトレーニングを一時的に停止することを暗黙のうちに要求する。
全文は以下
概要
本日、私たちは、責任あるスケーリング方針(RSP)を公開しました。これは、ますます高性能化するAIシステムの開発に伴うリスクを管理するために採用する一連の技術的・組織的プロトコルです。
AIモデルの性能が向上するにつれて、大きな経済的・社会的価値を生み出す一方で、ますます深刻なリスクも生じると考えています。RSPは、AIモデルが直接大規模な破壊を引き起こすような壊滅的なリスクに焦点を当てています。このようなリスクは、モデルの意図的な悪用(例えば、テロリストや国家機関によるバイオ兵器の開発など)や、設計者の意図に反して自律的に行動することで破壊を引き起こすモデルから生じる可能性があります。
RSPでは、壊滅的なリスクに対処するためのAI安全性レベル(ASL)と呼ばれるフレームワークを定義しています。これは、米国政府の危険な生物材料の取り扱いに関するバイオセーフティレベル(BSL)基準を参考にしたものです。基本的な考え方は、モデルの壊滅的リスクの可能性に応じて適切な安全性、セキュリティ、運用基準を要求し、ASLレベルが高くなるにつれてより厳格な安全性の実証を求めるというものです。 ASLシステムを非常に簡潔にまとめると、以下のようになります。
ASL-1は、2018年のLLMやチェスのみをプレイするAIシステムなど、意味のある壊滅的リスクがないシステムを指します。
ASL-2は、バイオ兵器の製造方法を指示する能力など、危険な能力の初期段階を示すシステムを指しますが、検索エンジンができないような情報を提供していないため、情報の信頼性が不十分であったり、まだ有用ではありません。現在のLLM(クロードを含む)はASL-2に該当すると思われます。
ASL-3は、非AIのベースライン(検索エンジンや教科書など)と比較して、壊滅的な悪用のリスクが大幅に高まるシステム、または低レベルの自律的な能力を示すシステムを指します。
ASL-4以上(ASL-5以上)は、現在のシステムからはあまりにも遠く離れているため、まだ定義されていませんが、壊滅的な悪用の可能性と自律性において質的なエスカレーションを伴う可能性があります。
各ASLレベルの定義、基準、安全対策については本文で詳しく説明していますが、大まかに言えば、ASL-2対策は現在の安全基準とセキュリティ基準を表しており、最近のホワイトハウスでのコミットメントとかなりの部分で重複しています。ASL-3対策には、異常に強力なセキュリティ要件や、世界トップクラスのレッドチーマーによる敵対的テストでASL-3モデルに意味のある壊滅的な悪用リスクが示されなければ展開しないというコミットメントなど、時間内に遵守するためには集中的な研究とエンジニアリングの努力が必要となるより厳しい基準が含まれています(これは単にレッドチームを実施するというコミットメントとは対照的です)。ASL-4の対策はまだ書かれていませんが(ASL-3に到達する前に書くことがコミットメントです)、解釈可能性の手法を用いて、モデルが特定の壊滅的な行動をとる可能性が低いことを機械的に証明するなど、現在は未解決の研究課題であるような保証方法を必要とする可能性があります。
私たちは、壊滅的リスクに効果的に対処しつつ、有益な応用と安全性の進歩を奨励するバランスを取るようにASLシステムを設計しました。一方では、ASLシステムは、AIのスケーリングが必要な安全手順に準拠する能力を上回った場合、より強力なモデルのトレーニングを一時的に停止することを暗黙のうちに要求します。しかし、それは、さらなるスケーリングを可能にするために必要な安全上の問題を解決することを直接的に奨励し、前のASLレベルの最も強力なモデルを次のレベルの安全機能を開発するためのツールとして使用することを可能にする方法で行われます。これがフロンティアラボ全体で標準として採用されれば、競争的なインセンティブが安全性の問題解決に直接つながる「トップへのレース」のダイナミクスを生み出すことができると期待しています。
ビジネスの観点から言えば、RSPがClaudeの現在の使用方法を変更したり、製品の可用性を妨げたりすることはないことを明確にしておきたいと思います。むしろ、それは、自動車や航空業界における市販前のテストや安全機能の設計に類似しているとみなすべきで、製品を市場に投入する前にその安全性を厳密に実証することを目的としており、最終的には顧客の利益になるものです。 AnthropicのRSPは、取締役会によって正式に承認され、変更は長期的利益信託との協議を経て取締役会が承認しなければなりません。本文では、評価プロセスの完全性を確保するための手続き上の保護措置をいくつか説明しています。
しかし、これらのコミットメントは現時点での最善の推測であり、初期の反復であることを強調しておきたいと思います。AIは分野として進歩のペースが速く、不確実性が多いため、比較的安定したBSLシステムとは異なり、迅速な反復と軌道修正がほぼ確実に必要になるでしょう。
政策立案者、サードパーティの非営利組織、そして同様の展開の決定に直面している他の企業にとって、有益な示唆を提供できればと思います。
自律的能力の評価に関して、RSPのコミットメントの開発を支援してくれたARC Evalsの重要な洞察と専門知識に感謝します。評価手順の設計にあたり、AIリスク評価における彼らの専門知識は不可欠なものでした。また、ARC Evalsが主導して開発を進めている、より広範なARC責任あるスケーリング方針のフレームワークは、私たちのアプローチに刺激を与えてくれたことも認識しています。