GPT-4o - 井戸端

GPT-4o

from 2024/05/14

基素.icon

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: http://openai.com/index/hello-gpt-4o/

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks.

https://video.twimg.com/ext_tw_video/1790068706187345920/pu/vid/avc1/1920x1080/d-kWFueNllJF18JO.mp4?tag=14#.mp4

https://gyazo.com/e8c79b594de467b010130bb3f569ab54

free planでも待ってれば降ってくるのかしらmeganii.icon

そんなようなことが書いてありました基素.icon

自分いま無課金ですが使えちゃってますはるひ.icon

無課金だと今は4oと4o-miniしか使えない...bsahd.icon

半分の価格で性能が上がるなら4oに切り替えない意味ないんだよな〜

トークナイザーの改善で日本語のトークンが1/1.4に

OpenAI GJ!bsahd.icon

ビジュアルと音声が強化された

音声は平均320msで回答するようになった。これは普通の人間と同等レベル

cf. GPT-4は5.4s

Cotomoちゃんのアドが一個無くなった

Cotomoちゃんとは違いフィラーが入らない

GPT-4の時には音声をテキストに変換して推論していたが、テキスト・ビジョン・オーディオのマルチモーダルになったので音調や複数話者の識別や背景ノイズへの頑強さが上がる（？）

APIは2倍早く、半分の価格で、上限は5倍に

Developers can also now access GPT-4o in the API as a text and vision model. GPT-4o is 2x faster, half the price, and has 5x higher rate limits compared to GPT-4 Turbo. We plan to launch support for GPT-4o's new audio and video capabilities to a small group of trusted partners in the API in the coming weeks.

まだ自分のアカウントでは使えない

Explorations of capabilitiesのデモがすごい！

soraと同様に映像と映像が破綻していない

クオリアさんの二次創作が捗りそう

画像をマッシュアップしたり編集することができるし、Photoshopじゃん

3Dのオブジェクトの画像を生成もできてる

トランスクリプトに発話者の名前もかける

文字起こしはこれでいいな...

動画を渡して中身の要約

はぇ〜

ネームを見せながら展開を説明したら良い構図を出してくれないかな〜？

英会話が(耐えれるレベルの遅延で)自然にできる！けどプロンプトは工夫しないといちいち指示出しが大変。GPTsをつくるのがいい基素.icon

https://gyazo.com/904ae0f37415917dba2c3a354a2270e7

実際にはこれを音声でやってます

音声で怒りの感情を読み取ってくれた。こう言うわかりやすいのは間違わなさそう基素.icon

「だめだよ」から感情を読み取らせてみた

かなしそうなだめだよ

怒りのダメだよ

など

画像生成はまだでもみたいなことは全然できないから、ロールアウトされてない基素.icon

音声会話モード。昔よりはずいぶんよくなったのはわかるがやはり(日本語だからかな？)まだ待ち時間がある、デモほどのはいけないはるひ.icon

あらゆる体験はデモに劣る(デモは一番いいところをきりとる)基素.icon

ただ、いつかのgeminiの嘘デモの世界にはしっかり近づいてるなーと思ったはるひ.icon基素.icon

HumaneとかRabbitR1とか、GPT-4oを待てていたら評判変わってただろうな

音声会話モードはまだリリースされてないらしい。この違和感があるのは当然だった基素.icon

https://www.sbbit.jp/article/cont1/140613?page=2#head5

#Infobox:_LLM

https://platform.openai.com/docs/models/gpt-4o

code:model

Intelligence: High

Speed: Medium

Price: $2.5 • $10

Input • Output

Input: Text, image

Output: Text

128,000 context window

16,384 max output tokens

Oct 01, 2023 knowledge cutoff