mp3を文字起こししたい
何を使えばいい?
最適な場面
音声ファイルを一度に一つずつすばやく文字起こしする
他の言語の音声を英語に翻訳する
出力をガイドするためのプロンプトをモデルに提供する
サポートされているファイル形式: mp3、mp4、mpweg、mpga、m4a、wav、webm
ファイル名については ASCII 文字のみがサポートされています
最適な場面
25 MB (最大 1 GB) を超えるファイルの文字起こし。 Azure OpenAI の Whisper モデルのファイル サイズの制限は 25 MB です。
音声ファイルの大規模なバッチの文字起こし。
会話に参加している異なる話者を区別するためのダイアライゼーション。 音声サービスは、文字起こしされた音声の特定の部分を話していた話者に関する情報を提供します。 Azure OpenAI を介した Whisper モデルでは、ダイアライゼーションはサポートされていません。
ワードレベルのタイムスタンプ
サポートされているファイル形式: mp3、wav、ogg。
今回はこれを使うことにした
複数の音声ファイルをバッチ的に文字起こししたいので
3. ローカル
GitHubで公開されてるので普通にローカルで動かせる
出力の精度はAPIを叩いた方が良いらしい?