mp3を文字起こししたい
何を使えばいい?
OpenAIのWhisperが良いというのはよく聞く
OpenAI Whisper
OpenAI Whisperをどこで動かすか
1. Azure OpenAI Service
最適な場面
音声ファイルを一度に一つずつすばやく文字起こしする
他の言語の音声を英語に翻訳する
出力をガイドするためのプロンプトをモデルに提供する
サポートされているファイル形式: mp3、mp4、mpweg、mpga、m4a、wav、webm
ファイル名については ASCII 文字のみがサポートされています
2. Azure AI Speech
最適な場面
25 MB (最大 1 GB) を超えるファイルの文字起こし。 Azure OpenAI の Whisper モデルのファイル サイズの制限は 25 MB です。
音声ファイルの大規模なバッチの文字起こし。
会話に参加している異なる話者を区別するためのダイアライゼーション。 音声サービスは、文字起こしされた音声の特定の部分を話していた話者に関する情報を提供します。 Azure OpenAI を介した Whisper モデルでは、ダイアライゼーションはサポートされていません。
ワードレベルのタイムスタンプ
サポートされているファイル形式: mp3、wav、ogg。
今回はこれを使うことにした
複数の音声ファイルをバッチ的に文字起こししたいので
3. ローカル
GitHubで公開されてるので普通にローカルで動かせる
https://github.com/openai/whisper
出力の精度はAPIを叩いた方が良いらしい?
参考: https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/whisper-overview#whisper-model-via-azure-ai-speech-or-via-azure-openai-service