責任あるスケーリングポリシーを振り返って

https://scrapbox.io/files/6699db7e4d16bc001da1b30d.png

https://www.anthropic.com/news/reflections-on-our-responsible-scaling-policy

https://gigazine.net/news/20240520-anthropic-ai-responsible-scaling-policy/

Scaling Policy 改良:

https://www.anthropic.com/news/announcing-our-updated-responsible-scaling-policy

概要

昨年の夏、我々は最初のAnthropicの責任あるスケーリングポリシー（RSP）を発表しました。これは、最先端モデルの破滅的な安全性の失敗と誤用に対処することに焦点を当てています。

このポリシーを採用することで、我々の主な目標は、高レベルの安全性の概念を、急速に進化する技術組織のための実用的なガイドラインに変換し、それらが可能な基準として実行可能であることを実証することです。

このポリシーを運用するにつれて、我々は多くのことを学ぶことを期待しており、その知見を共有する予定です。この投稿では、これまでのポリシー実施からの考察を共有します。また、我々は更新されたRSPに取り組んでおり、近々これを共有する予定です。

破滅的なリスクに関して明確に表現されたポリシーを持つことが非常に価値があることがわかりました。これは、組織の優先事項を明確にし、プロジェクトの時間軸、人員、脅威モデル、トレードオフに関する議論を枠組みづけるための構造化されたフレームワークを提供しました。ポリシーを実施するプロセスは、他の方法では特定に時間がかかったり、議論されなかったかもしれない一連の重要な質問、プロジェクト、依存関係を浮き彫りにしました。

強力なコミットメントへの欲求と、我々がまだ正しい答えを求めているという現実のバランスを取ることは難しいです。いくつかのケースでは、元のポリシーが曖昧で明確化が必要です。オープンな研究課題や不確実性がある場合、過度に具体的な要件を設定することは時間の経過とともに通用しなくなる可能性が高いです。とはいえ、業界の関係者が増大する商業的圧力に直面する中で、我々は自主的なコミットメントから確立されたベストプラクティス、そして十分に練られた規制へと移行することを望んでいます。

元のポリシーの反復と改善を続けるにつれて、我々は既存のリスク管理と運用安全性の領域からのプラクティスを取り入れる方法を積極的に探索しています。これらの領域のどれ一つとして完全に類似しているわけではありませんが、核セキュリティ、バイオセキュリティ、システム安全性、自動運転車、航空宇宙、サイバーセキュリティから貴重な洞察を得られると期待しています。我々は、各領域から最も関連性が高く価値のあるプラクティスを統合するのを支援する学際的なチームを構築しています。

hiroya_iizuka.icon 様々な分野から、リスクに対しての専門的知見を取り入れようとしている

hiroya_iizuka.icon 給料すぎょい... https://boards.greenhouse.io/anthropic/jobs/4035533008?gh_src=4f33f5958us

我々の現在のフレームワークは、以下の5つの高レベルのコミットメントとしてまとめられています。

レッドライン能力の確立

我々は、将来の世代のモデルで出現する可能性があり、現在の安全性とセキュリティのプラクティス（ASL-2標準と呼ばれる）の下で保存または展開された場合に大きなリスクをもたらす可能性のある「レッドライン能力」を特定し、公表することを約束します。

レッドライン能力のテスト（フロンティアリスク評価）

我々は、レッドライン能力がモデルに存在しないことを実証すること、または - そうできない場合 - それらが存在するかのように行動することを約束します（詳細は後述）。

これには、領域の専門家と協力して、「フロンティアリスク評価」の範囲をデザインすることが含まれます - これらは、失敗した場合にモデルがレッドライン能力に達しているか、またはそれに近いという強力な証拠を与える経験的テストです。

また、明確な評価プロセスと現在の評価の要約を公開することを約束します。

レッドライン能力への対応

我々は、レッドライン能力を持つモデルを扱うのに十分な新しい安全性とセキュリティの標準を開発し、実装することを約束します。

この一連の対策はASL-3標準と呼ばれます。我々は、この標準を構成するリスク軽減策を定義するだけでなく、標準の有効性を検証するための保証プロセスを詳細化し、それに従うことを約束します。

最後に、レッドライン能力を持つモデルがASL-3標準を適用できる場合にのみトレーニング、保存、展開されることを確実にするために、必要に応じてトレーニングまたは展開を一時停止することを約束します。

このポリシーの反復的な拡張

ASL-3標準を必要とする活動を進める前に、我々はその適合性の上限を明確に記述することを約束します：フロンティアリスク評価を構築する必要があり、トレーニングと展開を進める前により高い安全性とセキュリティの標準（ASL-4）を必要とする新しい一連のレッドライン能力です。

これには、明確な評価プロセスと評価の要約を公開で維持することが含まれます。

保証メカニズム

我々は、保証メカニズムを実装することで、このポリシーが意図したとおりに実行されることを確実にすることを約束します。

これらは、評価プロセスがストレステストされていること、安全性とセキュリティの軽減策が公開で、または利害関係のない専門家によって検証されていること、取締役会と長期的利益信託がポリシーの実施に対して十分な監督を行い、非遵守の領域を特定できること、そしてポリシー自体が適切なプロセスを通じて更新されることを確実にするべきです。

脅威モデリングと評価

我々のフロンティアレッドチームとアラインメントサイエンスチームは、脅威モデリングと領域専門家との関与に焦点を当てています。彼らは主に

(a)ASL-3標準のセキュリティと安全性を保証する必要がある能力を決定するための脅威モデルの改善

(b)ASL-3コントロールを開発しているチームと協力して、それらのコントロールが適切なリスクに合わせられていることを確認すること

(c)ASL-3標準では不十分であり、実装後も引き続きテストする必要がある能力のマッピングに焦点を当てています。いくつかの主要な考察は以下の通りです：

モデルの各新世代には創発的な能力があり、将来のモデルの特性を予測することが通常以上に困難です。さらなる脅威モデリングの深刻な必要性があります。

化学・生物・放射線・核（CBRN）などの比較的確立された領域でさえ、どのリスクを優先すべきか、新しい能力がどのように害を引き起こす可能性があるかについて、専門家の間で合理的な意見の相違があります。コンセンサスビューがない中で、様々なサブドメインの幅広い専門家と話すことが有益でした。

脅威モデルを定量化しようとすることは、どの能力とシナリオを優先すべきかを決定するのに役立ちました。

我々のフロンティアレッドチーム、アラインメントサイエンス、ファインチューニング、アラインメントストレステストチームは、評価の構築と全体的な方法論の改善に焦点を当てています。現在、我々は最も最近テストされたモデルの4倍の計算能力に達したフロンティアモデルに対して、サイバーセキュリティ、CBRN、モデル自律性の領域で展開前テストを実施しています（Claude 3 Opusに関する最新の評価セットの詳細な説明はこちらで読むことができます）。

また、このしきい値に達した場合、トレーニング中のモデルもテストし、ファインチューニングの改善を考慮して、3ヶ月ごとに最も能力の高いモデルを再テストしています。チームはまた、ASL-3標準でもまだ不適切な能力を監視するための多くの新しい領域で評価を構築し、全体的なテストプロセスをより堅牢にする方法を特定することに焦点を当てています。いくつかの主要な考察は以下の通りです：

ドメイン専門家との迅速な反復サイクルは、テストの難易度レベルが適切に調整されていないことや、タスクが問題の脅威モデルから乖離していることを認識するのに特に価値があります。

我々はこの分野で成長している研究者や企業のエコシステムを活用し、奨励することをますます目指すべきです。我々が評価しようとしているリスクの多く、特に自律性や誤整合に関わるものは、本質的に複雑で推測的であり、我々自身のテストと脅威モデリングは恐らく不完全です。また、我々の主張の質を適切に評価できる成熟した外部エコシステムを開発し、リソースの少ない企業にアクセス可能な評価をサービスとして提供することも価値があるでしょう。我々はこれらの領域で外部組織とのパートナーシップのテストを開始しました。

異なる評価方法論にはそれぞれ長所と短所があり、モデルの能力を最も説得力のある方法で評価する方法は、脅威モデルや領域に応じて異なります。

質問と回答のデータセットは比較的設計が容易で、迅速に実行できます。しかし、固有の制約された形式のため、現実世界のリスクを最も反映していない可能性があります。チームは、より複雑なタスクセットの良好な代理となり、より包括的で時間のかかる一連のテストをトリガーする可能性のあるデータセットを設計する可能性を引き続き探索します。

モデルアクセスを持つ被験者と検索エンジンを持つ被験者のパフォーマンスを比較する人間の試験は、誤用に関連する領域を測定するのに価値があります。しかし、これらは時間がかかり、堅牢で、十分に文書化され、再現可能なプロセスを必要とします。我々は、良好な専門家のベースラインを確立し、十分な試行サイズを確保し、試験から意味のあるシグナルを得るために慎重な統計的推論を行うことが特に重要であることがわかりました。我々は、このタイプのテストを実行するためのインフラを拡大する方法を探索しています。

自動化されたタスク評価は、モデルが自律的に行動する脅威モデルに対して有益であることが証明されています。しかし、現実的な仮想環境を構築することは、より工学的に集中的な評価スタイルの一つです。そのようなタスクはまた、安全なインフラストラクチャとモデルの相互作用の安全な処理を必要とし、タスクがオープンなインターネットを含む場合はツール使用の手動の人間によるレビュー、潜在的に有害な出力のブロック、脆弱なマシンの分離によるスコープの削減を含みます。これらの考慮事項により、タスクのスケーリングが困難になります。

上記のアプローチほど厳密で再現可能ではありませんが、専門家のレッドチーミングとトランスクリプトを通じたモデルの動作のレビューも価値があることが証明されています。これらの方法により、モデルの能力のより開放的な探索が可能になり、異なる評価タスクや質問の関連性について専門家の意見を求めやすくなります。

今後数ヶ月間、我々のチームが信頼できる評価プロセスを構築するために焦点を当てる多くのオープンな研究課題があります。我々は、より広範な研究コミュニティからこれらの領域でのさらなる探索を歓迎します。

我々は、危険なしきい値に到達する前にモデルリスクに関する証拠を収集し、適切な軽減策を準備することを目指しています。これには、現在の証拠から将来のリスクレベルへの外挿が必要です。理想的には、危険な能力につながる「スケーリング法則」が滑らかであり、モデルが危険な能力を開発する可能性がある時期を予測できるようになることです。将来的には、次世代のモデルが特定の領域でどれだけ能力が高くなるかを正確に予測できるようになることを望んでいます。

ドメイン固有の強化学習トレーニング、プロンプトエンジニアリング、監督付きファインチューニングなど、モデルがタスクをより効果的に完了するのを助けるテクニックを使用することができます。これにより、テスト中に関連するすべてのモデル能力を引き出すことを保証することは不可能になります。良好なテストプロセスには、評価に合格し、能力引き出しの改善に投資するための集中的な努力が含まれます。これは、十分なリソースを持つ悪意のある行為者がセキュリティ制御をバイパスしてモデルの重みにアクセスするシナリオをシミュレートするために重要です。しかし、あるモデルで危険な能力を引き出そうと非常に懸命に試みることと、単にその能力を持つようにモデルを訓練することとの間に明確な区別はありません。我々は、将来のバージョンのポリシーで、十分な引き出しがどのようなものかについて、より正確で原則に基づいた主張ができることを望んでいます。

リスク評価プロセスを外部から理解可能にすることには大きな価値があります。したがって、我々は、緩和されていない場合に許容できないレベルのリスクを示すと考えるテスト結果を事前に指定することを目指しています。これらの明確なコミットメントは、生産圧力が基準を緩和する incentive を生み出すのを避けるのに役立ちますが、必然的にやや粗雑または恣意的なしきい値をもたらす可能性があります。我々は、検証可能なコミットメントの外部からの理解可能性を維持しながら、上記で説明した異なる証拠源をより良く集約する方法を探求したいと考えています。同様に、他の領域で一般的な予測などの他の証拠源を組み込むべきかどうかを探求する可能性があります。

ASL-3 標準

我々のセキュリティ、アラインメントサイエンス、信頼性と安全性のチームは、ASL-3標準の開発に焦点を当ててきました。彼らの目標は、モデルの重みが非国家主体に盗まれたり、我々の製品表面を通じてモデルが誤用されるリスクを十分に軽減する一連のコントロールを設計し実装することです。この標準は、誤用の率が低くても破滅的な可能性のある能力を持つ多くのモデルに十分なものです。しかし、国家グループや相当な国家支援とリソースを持つグループを可能にする能力には十分ではありません。いくつかの主要な考察は以下の通りです：

我々のすべての製品表面（例：Vertex、Bedrock、Claude.ai）でモデルが安全かつ責任を持って使用されることを確実にするための現在の計画には、自動検出と対応のための分類器モデルに関する研究のスケールアップと、伝統的な信頼性と安全性のプラクティスのあらゆる側面の強化が含まれています。

人間による誤用に関しては、多層防御アプローチが最も有望であると予想しています。これには、人間のフィードバックからの強化学習（RLHF）とConstitutinal AI(Constitutional AI論文 )の組み合わせ、ユーザーの相互作用の複数の段階（例：ユーザープロンプト、モデルの完了、会話レベル）で誤用を検出する分類器のシステム、ジェイルブレイクに対するインシデント対応とパッチ適用が含まれます。実用的なエンドツーエンドシステムの開発には、コスト、ユーザーエクスペリエンス、堅牢性のバランスを取ることも必要で、既存の信頼性と安全性のアーキテクチャからインスピレーションを得ています。

責任あるスケーリングポリシーで説明されているように、我々は展開前にこのエンドツーエンドシステムをレッドチームして、洗練された攻撃に対する堅牢性を確保します。リスク軽減の取り組みを脅威モデルに直接結びつけることの重要性を強調し、我々のレッドチーミングアプローチを開発しているチームと脅威モデリングと評価の取り組みを主導する研究者との緊密な協力によって、これらのリスク軽減目標が改善されることがわかりました。

セキュリティプログラムをスケールアップし、様々な非国家主体から防御するための包括的なロードマップを開発するには、大規模な努力が必要でした：現在、Anthropicの全従業員の約8%がセキュリティ関連の分野で働いており、モデルが攻撃者にとってより経済的に価値のあるものになるにつれて、その割合がさらに増加することを予想しています。RSPで明確化された脅威モデルとセキュリティターゲットは、我々のセキュリティチームが必要な変更を優先し、動機付けるのに特に価値がありました。

ASL-3標準で要求されるレベルのセキュリティを実装するには、従業員の日々のワークフローのあらゆる側面を変更する必要があります。これらの変更を思慮深く行うために、我々のセキュリティチームは、特に研究者と、生産性を維持し、最先端のサイバーセキュリティコントロールをツールに適用するためのパートナーシップを構築することに多大な時間を投資しました。

我々の脅威モデリングでは、内部デバイスの侵害が最も高いリスクベクトルであると仮定しています。これを考慮して、我々の主な焦点の一つは、モデルの重みの流出のリスクを軽減するためのマルチパーティ認証、時間制限付きアクセス制御の実装でした。このシステムの下では、従業員には一時的なアクセスが付与され、必要な最小限の権限セットのみが与えられます。幸いなことに、Anthropicはすでにソフトウェアエンジニアリング、研究、コミュニケーション、財務チーム全体でピアレビューの文化を採用しており、ASL-3レベルに近づくにつれてマルチパーティコントロールを採用することは、これらの既存の文化規範の十分に受け入れられた拡張となりました。

このような急速に変化する分野では、リスク軽減策、あるいはそれらの有効性を評価するために使用する方法さえも、事前に定義することは難しいことがよくあります。我々は、新しい情報や状況が発生した場合でも自由度を許容しながら、可能な限り拘束力のあるコミットメントを行いたいと考えています。ASL-3標準と将来の標準の両方について、期待される緩和策の高レベルのスケッチを提供し、使用前に満たす必要がある明確な「証明」基準を設定することが最も実用的であると予想しています。例えば、セキュリティ標準では、事前に詳細なコントロールを指定せずに非国家主体から防御するという目標を明確にし、これを詳細なコントロールリスト、利害関係のない専門家からのレビュー、取締役会の承認を含む合理的な証明プロセスと組み合わせることができます。

保証構造

最後に、我々の責任あるスケーリング、アラインメントストレステスト、コンプライアンスチームは、可能なガバナンス、調整、保証構造の探索に焦点を当ててきました。我々は、時間とともにより独立したチェックを導入する予定であり、他の産業や関連研究からのベストプラクティスを活用してこれらの構造を開発するリスクマネージャーを雇用することを検討しています。いくつかの主要な考察は以下の通りです：

上記で説明した作業ストリームの複雑さと機能横断的な性質は、高レベルの中央調整を必要とします。我々は、複雑な作業ストリームと依存関係のウェブを管理するために、責任あるスケーリングチームの構築を継続します。競合する優先事項の中で、フロンティアモデルからのリスクの特定と軽減が会社の優先事項であり、相当なリソースに値することを強化するために、強力な経営陣のバックアップも不可欠でした。

我々の中核的な作業ストリームに対してより敵対的なアプローチを取ることができる「第二の防衛線」を作ることには価値があります。我々のアラインメントストレステストチームは、評価、介入、全体的なポリシー実行のストレステストを開始しました。例えば、チームはClaude 3 Opusの評価報告書と共に潜在的な過小引き出しに関する考察を提供し、これらは取締役会と米国商務省産業安全保障局への報告書にまとめられました。時間とともに、特別な内部監査機能を構築することも意味があるかもしれません。

取締役会と長期的利益信託に定期的な更新を提供することに加えて、我々は評価報告書と将来の緩和策に向けた進捗の四半期更新をすべての従業員に共有しました。従業員がRSPに対する所有権を感じ、ポリシーを改善したい領域を共有するよう奨励することは非常に有益であり、多様な背景を持つスタッフが貴重な洞察を提供しています。また、最近、従業員がRSPの実施に関する懸念を責任あるスケーリング責任者に匿名で報告できる非遵守報告ポリシーを実装しました。

将来のフロンティアモデルの世代が責任を持ってトレーニングおよび展開されることを確実にするには、AnthropicとそれRSP以外の業界や政府からの深刻な投資が必要です。我々の責任あるスケーリングポリシーは、過去数ヶ月間の多くのチームの目標が上記の主要な作業ストリームに直接つながる強力な集結点となりました。この期間中の安全性の運用化に関して我々が行った進歩は、Anthropic全体のチームからの重要な関与を必要としましたが、まだ多くの作業が残っています。来たるAIソウルサミットに先立ってこれらの考察を共有する我々の目標は、フロンティアモデルからのリスクを管理するための、よく考えられた、実証に基づくフレームワークの作成に関する議論を継続することです。我々は、より多くの企業が独自のフレームワークを採用し、自身の経験を共有することを熱望しており、これにより共有されたベストプラクティスの開発と、政府による将来の取り組みへの情報提供につながることを期待しています。