私たちのユーザーへの安全性の取り組み

https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety

ユーザーの安全性は、信頼性が高く、解釈可能で、制御可能なAIシステムを作成するというAnthropicの使命の中核です。

私たちがClaudeとの新しい対話方法を立ち上げるにつれて、誤情報の生成、不適切なコンテンツ、ヘイトスピーチ、またはその他の誤用を通じて、新たな種類の潜在的な危害が顕在化することも予想されます。

私たちは、既存のモデル安全性への取り組みを補完するための追加の安全性機能に積極的に投資し、実験を行っています。

また、幅広い層に役立つツールを提供すると同時に、危害を軽減するために最善を尽くしています。

新製品をオープンベータで立ち上げることで、実験し、改善を重ね、皆様からのフィードバックを聞くことができます。以下は、私たちが導入した安全性機能の一部です:

当社の使用ポリシーに基づいて、潜在的に有害なコンテンツを検出するモデル。

プロンプトに対する安全性フィルター

これは、当社の検出モデルがコンテンツを有害と判断した場合に、モデルからの応答をブロックする可能性があります。

強化された安全性フィルター

これにより、当社の検出モデルの感度を高めることができます。

当社のポリシーに繰り返し違反するユーザーに対して一時的に強化された安全性フィルターを適用し、違反がないか、または少ない期間の後にこれらの管理を解除する場合があります。

これらの機能は完全なものではなく、誤検出や見逃しによって間違いを犯す可能性があります。これらの措置とユーザーへの説明方法に関する皆様のフィードバックは、これらの安全システムを改善する上で重要な役割を果たします。フィードバックがある場合は、usersafety@anthropic.comまでご連絡いただくことをお勧めします。詳細については、AIの安全性に関する中核的な見解：いつ、なぜ、何を、どのようにをお読みください。