STT
Speech-To-Text
日本語話し言葉コーパスの学会音声再朗読音声で比較する
openai/whisper
https://github.com/openai/whisper
tiny モデル
5643 ms
はや
CER: 20% 弱あるのでしんどいかなあ
base モデル
14039 ms
tiny モデルよりかなり遅いなあ
実用に耐え難いかも
CER: 0.163 だから誤り率あんま変わらん?
Moonshine Voice