mp3を文字起こししたい

何を使えばいい？

OpenAIのWhisperが良いというのはよく聞く

OpenAI Whisperをどこで動かすか

最適な場面

音声ファイルを一度に一つずつすばやく文字起こしする

他の言語の音声を英語に翻訳する

出力をガイドするためのプロンプトをモデルに提供する

サポートされているファイル形式: mp3、mp4、mpweg、mpga、m4a、wav、webm

ファイル名については ASCII 文字のみがサポートされています

最適な場面

25 MB (最大 1 GB) を超えるファイルの文字起こし。 Azure OpenAI の Whisper モデルのファイルサイズの制限は 25 MB です。

音声ファイルの大規模なバッチの文字起こし。

会話に参加している異なる話者を区別するためのダイアライゼーション。音声サービスは、文字起こしされた音声の特定の部分を話していた話者に関する情報を提供します。 Azure OpenAI を介した Whisper モデルでは、ダイアライゼーションはサポートされていません。

ワードレベルのタイムスタンプ

サポートされているファイル形式: mp3、wav、ogg。

今回はこれを使うことにした

複数の音声ファイルをバッチ的に文字起こししたいので

3. ローカル

GitHubで公開されてるので普通にローカルで動かせる

出力の精度はAPIを叩いた方が良いらしい？