Claude3の紹介

https://scrapbox.io/files/65edc72b35a33a0025fe1e29.png

https://www.anthropic.com/news/claude-3-family

ポイント

今回新たにOpusに追加されたビジョン機能が強い...！

MMMUで、Opusは、GPT-4Vを上回る成績

Gemini Ultraと同程度 (59.4%)

https://scrapbox.io/files/65ee5bb84ab4120024721197.png

コンテキストウィンドウは20万トークンだが、一部の顧客には、100万トークンまで拡大できるとのこと。

一部の顧客とは、法人ユーザーのことか？

needle in a haystackでは、Claude3 Opusは、20万トークンの中で、99%のリコール率

Gemini 1.5 Proでは1000万トークンで99%だから、この点では、Geminiに軍配があがる。

Claude3は、JSON形式で出力するのが得意

コスト面

Claude3 OpusのAPI費用は、出力の文字数が多ければGPT-4よりも高くなりそう

Claude3 OpusとGPT-4のAPI費用の比較

Claude3 HaikuのAPI費用は、GPT-3.5と比較すると安い。

Claude3 HaikuとGPT-3.5-TurboのAPI費用の比較

概要

本日、Claude3モデルファミリーをリリースしました。これは、幅広い認知タスクにおいて新たな業界基準を打ち立てるものです。このファミリーには、能力順に並べた3つの最先端モデルが含まれています。Claude3 Haiku、Claude3 Sonnet、Claude3 Opusです。それぞれのモデルは、より強力なパフォーマンスを提供し、ユーザーは自分の特定のアプリケーションに最適なインテリジェンス、スピード、コストのバランスを選択できます。

Claude3モデルファミリー

https://scrapbox.io/files/65edc7a8530db70025ac85fb.png

インテリジェンスの新しい標準

最もインテリジェントなモデルであるOpusは、学部レベルの専門知識MMLU、大学院レベルの専門的推論GPQA、基礎数学GSM8Kなど、AIシステムの一般的な評価基準のほとんどで他社製品を上回っています。複雑なタスクにおいて、ほぼ人間に近いレベルの理解力と流暢さを示し、一般的な知性の最前線をリードしています。

すべてのクロード3モデルは、分析と予測、ニュアンスのあるコンテンツ作成、コード生成、スペイン語、日本語、フランス語などの非英語での会話において、機能が向上しています。

以下は、複数のベンチマークにおける能力について、Claude3モデルと他社モデルを比較したものです。

https://scrapbox.io/files/65edd90df5969d00263841b2.png

ほぼ瞬時の結果

Claude3モデルは、顧客とのリアルタイムなチャット、自動補完、データ抽出タスクなどで、即座にリアルタイムな応答が必要とされる場面で力を発揮します。

Haikuは、そのインテリジェンスカテゴリーにおいて、最も高速でコストパフォーマンスに優れたモデルです。arXivの情報量の多い研究論文（10kトークン）をグラフや図表を含めて3秒以内に読むことができます。リリース後、さらなるパフォーマンスの向上を予定しています。

大半のワークロードにおいて、SonetはClaude2およびClaude2.1と比較して、2倍の速度でより高いレベルのインテリジェンスを発揮します。ナレッジ検索や営業自動化など、迅速な応答が求められるタスクに優れています。オーパスは、クロード2および2.1と同等の速度ですが、はるかに高いレベルのインテリジェンスを提供します。

強力なビジョン機能

Claude3モデルは、他の主要なモデルと同等の洗練されたビジョン機能を備えています。写真、チャート、グラフ、技術図面など、幅広いビジュアルフォーマットを処理することができます。企業のお客様の中には、ナレッジベースの最大50％がPDF、フローチャート、プレゼンテーションスライドなどの様々な形式でエンコードされている方もいらっしゃいますので、この新しいモダリティを提供できることを特に喜ばしく思います。

https://scrapbox.io/files/65ee5bb84ab4120024721197.png

拒否が少ない

以前のClaudeモデルは、文脈の理解不足を示唆する不必要な拒否をすることがよくありました。この分野で大きな進歩を遂げました。Opus、Sonet、Haikuは以前の世代のモデルに比べて、システムのガードレールに近いプロンプトへの回答を拒否する可能性がはるかに低くなっています。下図のように、Claude3モデルは要求に対するより微妙な理解を示し、実際の危害を認識し、無害なプロンプトに対する回答の拒否が大幅に減少しています。

https://scrapbox.io/files/65ee5d1c721f3c0025a2a0ef.png

精度の向上

あらゆる規模の企業が当社のモデルを利用して顧客にサービスを提供しているため、モデルの出力が大規模に高い精度を維持することが不可欠です。これを評価するために、現在のモデルの既知の弱点を狙った複雑な事実に基づく質問の大規模なセットを使用しています。回答を、正答、誤答（または幻覚）、不確実性の認識（モデルが誤った情報を提供する代わりに答えを知らないと言う場合）に分類します。Claude2.1と比較して、Opusはこれらの難しい自由回答式の質問に対する精度（または正答）が2倍に向上し、誤答のレベルも低下しています。

より信頼性の高い応答を生成することに加えて、近日中にClaude3モデルで引用を可能にし、回答を検証するために参考資料の中の正確な文章を指摘できるようにします。

https://scrapbox.io/files/65ee5ec8b52ec80026194b15.png

長いコンテキストとほぼ完璧な記憶力

Claude3ファミリーのモデルは、初期段階では200Kのコンテキストウィンドウを提供します。しかし、3つのモデルはすべて100万トークンを超える入力を受け入れることができ、強化処理能力を必要とする特定の顧客に対してこれを利用可能にする可能性があります。

長いコンテキストプロンプトを効果的に処理するためには、モデルには強力な記憶能力が必要です。「needle in a haystack」（NIAH）評価は、膨大なデータの中から情報を正確に思い出すモデルの能力を測定します。プロンプトごとに30個のランダムな針/質問ペアの1つを使用し、多様なクラウドソースのドキュメントコーパスでテストすることで、このベンチマークの堅牢性を高めました。Claude3 Opusは、99％以上の精度を達成し、ほぼ完璧な記憶力を示しただけでなく、場合によっては、「針」の文が人間によって元のテキストに人為的に挿入されたように見えることを認識し、評価自体の限界を特定しました。

責任あるデザイン

Claude3ファミリーのモデルは、能力と同じくらい信頼できるように開発されています。誤情報やCSAMから生物学的悪用、選挙干渉、自律複製スキルに至るまで、幅広いリスクを追跡し、軽減するために、専任のチームを複数設けています。モデルの安全性と透明性を向上させるConstitutional AI論文などの手法の開発を継続し、新しいモダリティによって引き起こされる可能性のあるプライバシーの問題を軽減するようにモデルを調整しています。

ますます洗練されたモデルにおけるバイアスへの取り組みは継続的な努力であり、この新しいリリースでは前進を遂げました。モデルカードに示されているように、Claude3は、質問応答のためのバイアスベンチマーク（BBQ）に基づいて、以前のモデルよりもバイアスが少ないことを示しています。バイアスを減らし、モデルの中立性を高める技術の進歩に引き続き取り組み、特定の党派的立場に偏らないようにしていきます。

Claude3モデルファミリーは、以前のモデルと比較して、生物学的知識、サイバー関連の知識、自律性の主要な尺度で進歩していますが、当社の責任あるスケーリングポリシーに基づき、AIセーフティレベル2（ASL2）のままです。ホワイトハウスへのコミットメントと2023年の米国大統領令に沿って実施された当社のレッドチームによる評価では、現時点でモデルが壊滅的なリスクをもたらす可能性は無視できるほど低いと結論付けています。今後のモデルについては、ASL3の閾値に近づいているかどうかを慎重に監視し続けます。安全性の詳細については、クロード3モデルカードをご覧ください。

使いやすさの向上

Claude3モデルは、複雑な多段階の指示に従うのが得意です。特にブランドの声とレスポンスのガイドラインに忠実であり、ユーザーが信頼できる顧客向けのエクスペリエンスを開発することに長けています。さらに、Claude3モデルは、JSONなどの一般的な構造化された出力形式を生成するのが得意で、自然言語分類や感情分析などのユースケースでClaudeに指示を出すのがより簡単になっています。

モデルの詳細

Claude3 Opusは、非常に複雑なタスクにおいて市場最高のパフォーマンスを発揮する最もインテリジェントなモデルです。オープンエンドのプロンプトや未知のシナリオを、驚くべき流暢さと人間のような理解力で navigateすることができます。Opusは、生成AIで可能なことの限界を示しています。

コスト

入力: $15/100万トークン

出力: $75/100万トークン

コンテキストウィンドウ

200K

特定のユースケースでは100万トークンが利用可能

想定される用途

タスクの自動化

APIやデータベースを横断した複雑なアクションの計画と実行、対話型コーディング

R&D

研究レビュー、ブレインストーミングと仮説生成、創薬

戦略

チャートとグラフ、財務と市場動向の高度な分析、予測

差別化要因

他のモデルよりも高いインテリジェンス

Claude3 Sonnetは、特にエンタープライズのワークロードに対して、インテリジェンスとスピードの理想的なバランスを実現します。他社製品と比較して低コストで高いパフォーマンスを発揮し、大規模なAI導入における高い耐久性を備えています。

コスト

入力: $3/100万トークン

出力: $15/100万トークン

コンテキストウィンドウ

200K

想定される用途

データ処理

膨大な量のナレッジを対象としたRAGまたは検索・取得

営業

製品のレコメンデーション、予測、ターゲットマーケティング

時間節約タスク

コード生成、品質管理、画像からのテキスト解析

差別化要因

同等のインテリジェンスを持つ他のモデルよりも安価で、より大規模に適している。

Claude3 Haikuは、ほぼ瞬時の応答性を実現する最速かつ最もコンパクトなモデルです。シンプルなクエリや要求に、比類のないスピードで答えます。ユーザーは人間のようなインタラクションを模倣するシームレスなAIエクスペリエンスを構築することができます。

コスト

入力: $0.25/100万トークン

出力: $1.25/100万トークン

コンテキストウィンドウ

200K

特定のユースケースでは100万トークンが利用可能

想定される用途

顧客とのやり取り

ライブインタラクションでの迅速で正確なサポート、翻訳

コンテンツモデレーション

リスクのある行動や顧客の要求を捉える

コスト削減タスク

最適化されたロジスティクス、在庫管理、非構造化データからのナレッジ抽出

差別化要因

同じインテリジェンスカテゴリーの他のモデルよりも、スマートで高速、かつ手頃な価格。

モデルの提供状況

OpusとSonetは、当社のAPIで今日から使用可能で、このAPIは現在一般提供されており、開発者はすぐにサインアップしてこれらのモデルの使用を開始できます。Haikuは近日中に利用可能になる予定です。Sonetは、claude.aiの無料体験版を提供しており、Opusは有料版にて提供されています。

Sonetは、Amazon BedrockとGoogle CloudのVertex AI Model Gardenのプライベートプレビューでも本日から利用可能で、OpusとHaikuも両方ですぐに提供開始予定です。

より賢く、より速く、より安全に

モデルのインテリジェンスにはまだ限界がないと考えており、今後数ヶ月の間にClaude3ファミリーに頻繁なアップデートを行う予定です。また、特にエンタープライズのユースケースと大規模な展開のために、モデルの機能を強化する一連の機能をリリースできることを楽しみにしています。これらの新機能には、ツールの使用（別名関数呼び出し）、インタラクティブなコーディング（別名REPL）、より高度なエージェント機能などが含まれます。

AI機能の限界に挑戦すると同時に、安全性のガードレールがこれらのパフォーマンスの飛躍と歩調を合わせることを同様に約束します。AI開発の最前線にいることが、その軌道を社会にとってポジティブな結果に導く最も効果的な方法だと考えています。