Whisper - 基素基

Whisper

バックグラウンドノイズがある早口を正確に聞き取る

データセットの1/3は英語ではない

英語の翻訳タスクと、元の言語のtranscriptにするタスクを混ぜていて、これが翻訳には良いらしい

日本語 to 日本語もぼちぼちいけるのかな？

性能は言語によって異なる

言語別WER

Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken

英語は4.5%

日本語は6.4%

英語にめっちゃ劣っているわけではない

Unity

@mochi_neko_7: ChatGPT APIのUnityライブラリの流れで、Whisper APIをUnityで使えるライブラリを作成しました。

Transcription（音声をテキストに変換）、Translation（音声を英語のテキストに翻訳）どちらも使用できます。

同じくUPMでパッと導入できるようにしてあります。

英語と日本語が混じっている場合は？

話者認識はしない

AさんとBさんをわけない

応用例を考える

動画編集ソフトに自動でテロップを入れる

Premiere Proの自動文字起こしがあるが、音声認識の品質が低い

Vrewの高精度版

声が聞きづらい動画の文字起こし

ノイズに強いのがポイントなのでこういうタスクには向いていそう

ただ、音が悪い動画はそもそも再生したくないからマイクをちゃんとセットアップしてほしいところ

Seiren Voiceの入力に使う

開発元が本体が取り入れてくれないとダメかも

Google APIより良いらしい

@ksasao: spleeterで背景のBGMやSEを消してwhisperに突っ込むといい感じでテキスト起こしできる感じ

https://pbs.twimg.com/media/FeNlxaJaEAAhlwv.png

背景音ありでもwhisperは結構いい気がするけど背景オンを消すともっと良くなるのかな？