Whisper
OpenAIの音声認識モデル
バックグラウンドノイズがある早口を正確に聞き取る
https://openai.com/blog/whisper/
データセットの1/3は英語ではない
英語の翻訳タスクと、元の言語のtranscriptにするタスクを混ぜていて、これが翻訳には良いらしい
日本語 to 日本語もぼちぼちいけるのかな?
性能は言語によって異なる
言語別WER
Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken
https://www.rev.com/blog/resources/what-is-wer-what-does-word-error-rate-mean
英語は4.5%
日本語は6.4%
英語にめっちゃ劣っているわけではない
C#移植版 https://github.com/ggerganov/whisper.cpp
Unity
@mochi_neko_7: ChatGPT APIのUnityライブラリの流れで、Whisper APIをUnityで使えるライブラリを作成しました。
Transcription(音声をテキストに変換)、Translation(音声を英語のテキストに翻訳)どちらも使用できます。
同じくUPMでパッと導入できるようにしてあります。
https://github.com/mochi-neko/Whisper-API-unity
Whisperを試す
英語と日本語が混じっている場合は?
話者認識はしない
AさんとBさんをわけない
応用例を考える
動画編集ソフトに自動でテロップを入れる
Premiere Proの自動文字起こしがあるが、音声認識の品質が低い
DaVinci Resolveで高速に字幕を入れるのに役立つかも
Vrewの高精度版
声が聞きづらい動画の文字起こし
ノイズに強いのがポイントなのでこういうタスクには向いていそう
ただ、音が悪い動画はそもそも再生したくないからマイクをちゃんとセットアップしてほしいところ
Seiren Voiceの入力に使う
開発元が本体が取り入れてくれないとダメかも
https://twitter.com/yutatatatata/status/1580330471728156672
Google APIより良いらしい
@ksasao: spleeterで背景のBGMやSEを消してwhisperに突っ込むといい感じでテキスト起こしできる感じ
https://pbs.twimg.com/media/FeNlxaJaEAAhlwv.png
背景音ありでもwhisperは結構いい気がするけど背景オンを消すともっと良くなるのかな?