OpenAI DevDay 2024
Realtime API
入力、出力の両方でテキスト、音声を選択可能
音声入力、音声出力がこれで完結する
今までは音声認識、テキストによる処理、出力音声への変換の3つが必要だった
function callingをサポート
function calling使ったことないのであとでやってみようcak.icon
入力: 6cent/min、出力: 24cent/min
speak(言語学習アプリ)で使っているらしい
Vision Fine-tuning
認識系のタスクで使用するのが想定された使い方っぽい
webサイトのトンマナに合ったコードを書く
Prompt Caching
1024トークン以上が対象
これは該当部分がということかな?
該当部分のトークンのAPI利用料金が半額になる
特に設定しなくても勝手に適用される
Model Distillation
精度が高いモデルを使用して精度の低いモデルを改善する
stored completionsで会話のログを収集してEvalsで評価基準を与えるっぽい
ちょっとこれはやってみないとわからないなcak.icon