GPT-4o
基素.icon
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks.
https://video.twimg.com/ext_tw_video/1790068706187345920/pu/vid/avc1/1920x1080/d-kWFueNllJF18JO.mp4?tag=14#.mp4
https://gyazo.com/e8c79b594de467b010130bb3f569ab54
free planでも待ってれば降ってくるのかしらmeganii.icon
そんなようなことが書いてありました基素.icon
自分いま無課金ですが使えちゃってますはるひ.icon
トークナイザーの改善で日本語のトークンが1/1.4に
OpenAI GJ!bsahd.icon
ビジュアルと音声が強化された
音声は平均320msで回答するようになった。これは普通の人間と同等レベル
cf. GPT-4は5.4s
生身の人間より早い説bsahd.icon
GPT-4の時には音声をテキストに変換して推論していたが、テキスト・ビジョン・オーディオのマルチモーダルになったので音調や複数話者の識別や背景ノイズへの頑強さが上がる(?)
APIは2倍早く、半分の価格で、上限は5倍に
Developers can also now access GPT-4o in the API as a text and vision model. GPT-4o is 2x faster, half the price, and has 5x higher rate limits compared to GPT-4 Turbo. We plan to launch support for GPT-4o's new audio and video capabilities to a small group of trusted partners in the API in the coming weeks.
まだ自分のアカウントでは使えない
Explorations of capabilitiesのデモがすごい!
クオリアさんの二次創作が捗りそう
画像をマッシュアップしたり編集することができるし、Photoshopじゃん
3Dのオブジェクトの画像を生成もできてる
トランスクリプトに発話者の名前もかける
文字起こしはこれでいいな...
動画を渡して中身の要約
はぇ〜
ネームを見せながら展開を説明したら良い構図を出してくれないかな〜?
英会話が(耐えれるレベルの遅延で)自然にできる!けどプロンプトは工夫しないといちいち指示出しが大変。GPTsをつくるのがいい基素.icon
https://gyazo.com/904ae0f37415917dba2c3a354a2270e7
実際にはこれを音声でやってます
音声で怒りの感情を読み取ってくれた。こう言うわかりやすいのは間違わなさそう基素.icon
「だめだよ」から感情を読み取らせてみた
かなしそうなだめだよ
怒りのダメだよ
など
画像生成はまだでもみたいなことは全然できないから、ロールアウトされてない基素.icon
音声会話モード。昔よりはずいぶんよくなったのはわかるがやはり(日本語だからかな?)まだ待ち時間がある、デモほどのはいけないはるひ.icon
あらゆる体験はデモに劣る(デモは一番いいところをきりとる)基素.icon
ただ、いつかのgeminiの嘘デモの世界にはしっかり近づいてるなーと思ったはるひ.icon基素.icon HumaneとかRabbitR1とか、GPT-4oを待てていたら評判変わってただろうな
音声会話モードはまだリリースされてないらしい。この違和感があるのは当然だった基素.icon