Whisper
バックグラウンドノイズがある早口を正確に聞き取る
データセットの1/3は英語ではない
英語の翻訳タスクと、元の言語のtranscriptにするタスクを混ぜていて、これが翻訳には良いらしい
日本語 to 日本語もぼちぼちいけるのかな?
性能は言語によって異なる
言語別WER
Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken
英語は4.5%
日本語は6.4%
英語にめっちゃ劣っているわけではない
Unity
@mochi_neko_7: ChatGPT APIのUnityライブラリの流れで、Whisper APIをUnityで使えるライブラリを作成しました。 Transcription(音声をテキストに変換)、Translation(音声を英語のテキストに翻訳)どちらも使用できます。
同じくUPMでパッと導入できるようにしてあります。
英語と日本語が混じっている場合は?
話者認識はしない
AさんとBさんをわけない
応用例を考える
動画編集ソフトに自動でテロップを入れる
ノイズに強いのがポイントなのでこういうタスクには向いていそう
ただ、音が悪い動画はそもそも再生したくないからマイクをちゃんとセットアップしてほしいところ
開発元が本体が取り入れてくれないとダメかも
Google APIより良いらしい
https://pbs.twimg.com/media/FeNlxaJaEAAhlwv.png
背景音ありでもwhisperは結構いい気がするけど背景オンを消すともっと良くなるのかな?