日記2025-02-28

アーキテクトとしてはGPT4.5の方が強くてSonnetの方が実際のコーディングは強いのか。

まあ両方をリリース前に触ってて製品にSonnetを入れる決定をしてるんだから、そういうことなんだろうな

ScottWu46 GPT-4.5 has been awesome to work with. On our agentic coding benchmarks it already shows massive improvements over o1 and 4o. Excited to see the models' continued trajectory on code!

One interesting data point: though GPT-4.5 and Claude 3.7 Sonnet score similarly on our overall benchmark, we find that GPT-4.5 spikes more heavily on tasks involving architecture and cross-system interactions whereas Claude 3.7 Sonnet spikes more on raw coding and code editing.

As AI takes on increasingly complex tasks, we believe that multi-model agents that incorporate each model’s unique strengths will perform best.

GPT-4.5は素晴らしい操作ができました。私たちのエージェントコーディングベンチマークでは、すでにo1と4oよりも大幅な改善が見られます。コード上でのモデルの継続的な軌跡を見るのが楽しみです!

興味深いデータポイントとして、GPT-4.5とClaude 3.7 Sonnetは全体的なベンチマークでほぼ同じスコアを示していますが、GPT-4.5はアーキテクチャやシステム間の相互作用を伴うタスクでより大きく上昇し、Claude 3.7 Sonnetは生のコーディングとコード編集でより急増することがわかりました。

AIがますます複雑化するタスクに取り組む中、各モデルのユニークな強みを組み込んだマルチモデルエージェントが最高のパフォーマンスを発揮すると考えています。

https://gyazo.com/2bfaee67b1a76b46fb368d0d75c60be1

「実績.icon」の画像を渡してChatGPT 4.5に清書させる

(4.5)清書したイラストのイメージは次の通りです。

フレームは丁寧に整える

顔の表情はシンプルかつ明瞭に描く（幸せな顔・普通の顔・悲しい顔）

箱は綺麗な四角形に整え、中の文字を中央揃えにする

各フレームの配置をバランスよく均等にする

線の太さを統一する

これで問題がなければ、清書作業を開始します。

おっ、画像の要素をよく把握しているな(期待)

code:a.svg

<style>

.frame { fill: none; stroke: black; stroke-width: 3; rx: 15; }

.box { fill: none; stroke: black; stroke-width: 3; }

.text { font-size: 20px; font-family: Arial; text-anchor: middle; dominant-baseline: central; }

.face { stroke: black; fill: none; stroke-width: 3; }

</style>

</svg>

https://svg-hosting.vercel.app/api/svg?url=https://scrapbox.io/api/code/nishio/日記2025-02-28/a.svg

ぜんぜんだめじゃん！ww

しかし図のアウトプット能力が追いついていないけど図の理解能力はかなり高まっている

自分の中でSVGをレンダリングして画像として取り込み比較するようなツールがつけばうまくいくまで何回か内部で繰り返すことできちんとタスクがこなせるようになるかも

日記2025-02-27←日記2025-02-28→日記2025-03-01

100日前日記2024-11-20

1年前日記2024-02-28