2023/10/4 docker-whisperX 試す
Docker image があって親切
diarize もやるには
pyannote はモデル落としてくる必要ある & 最初は失敗する
gated model だから HF で認証しておく必要ある
先にファイルDLしておくだけじゃだめかなあ
pyannote
PYANNOTE_CACHE
~/.cache/torch/pyannote 以下に models--pyannote--... ができてる
ffmpeg も入ってて助かる
$ docker run --gpus all -it -v "${PWD}:/app" -w /app --entrypoint=/usr/local/bin/ffmpeg ghcr.io/jim60105/whisperx:large-v2-ja -i ./movie.mp4 -vn -ac 1 -sample_fmt s16 output.flac
whisperx の CLI オプションはここ
ファイルフォーマット
内部で以下通して処理しているのと同じ
$ ffmpeg -i <recording> -ar 16000 -ac 1 -c:a pcm_s16le <output>.wav
Diarization がめちゃめちゃ遅い理由
いま pyannote 3.0 を使っていて onnxruntime-gpu ではなく onnxruntime が使われて Diarization が CPU モードになる