Whisperを試す
2022/9/23
Colabで試せるけどオーディオのアップがメンドクサイ。macでやってみる インストール
code:zsh
brew install ffmpeg
# cloneしたリポジトリのrootで
python3 -m venv env
source env/bin/activate
pip setup.py install
ModuleNotFoundError: No module named 'setuptools_rust'
# なんで〜!
pip install setuptools_rust
# もう一回
pip setup.py install
# 通った
actual: NFTアートは複製できないアートのことなのだ
code:zsh
whisper 001_ずんだもん.wav --language Japanese
The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling transformers.utils.move_cache().
# 461MBのモデルのダウンロードが始まる...
これぐらい綺麗だと完璧
例えばVTuberの配信は背景音が入っているので結構難しい印象があるが、確認してみたら多少の背景音程度ではrobustだったので差異がわからなそうだった
https://gyazo.com/5abddb8fdd4f7453b1e08cc374d23c40
https://youtu.be/6v62DqV7PcY?t=319
実験2. 歌
歌は背景音が大きいし、メロディに合わせて言葉を載せるので話し言葉とは全然違い、難しい印象がある
基素.icon
前半は結構いい(冒頭に謎の誤認識がある)
ここが変
「8月のある朝」が「八月のあるアルワイト」
クスッとした
「はにかんではすましてみせた」が「はにかんではすましてミスター」
後半は音声がループしてておかしい。計算が狂っているか音声がちゃんと処理されていない印象
一番最後はあってる
結果がstreamで吐き出されるのいい
途中経過がわかりやすい
YouTubeの翻訳は日本語のラップを全く認識しない
https://gyazo.com/023a40fbf0d86354edd9b12d3bb9593f
https://www.youtube.com/watch?v=odRbaCjFQxQ
code:翻訳結果
これはすごい基素.icon