whisper.cpp
https://gyazo.com/188d9d2ef938990d14322cfaee6f54ba
CPUのみで動作可能で、ローカル実行・低リソース環境・エッジ用途に適している
$ , whisper-cli
モデルのダウンロード
$ whisper-cpp-download-ggml-model small small
current dirにダウンロードされる
利用可能モデル例:
table:_
モデル 精度 速度 用途
tiny 低 最速 テスト
base 中 速い 軽量用途
small 高 普通 実用
medium 高 遅い 高精度
large 最高 遅い 本番高精度
基本的な使い方
$ whisper-cli -m path/to/ggml-base.bin -f audio.wav
ダウンロードしたモデルのpathを指定して実行する
よく使うオプション
-m
モデル指定
-f
入力音声ファイル
-l
言語指定(例: ja)
-otxt
テキスト出力
-osrt
SRT字幕出力
-of
出力ファイル名
-t
スレッド数
-ngl
GPU使用レイヤ数 (Metal/CUDA)
リアルタイムマイク入力
$ whisper-stream -m path/to/ggml-small.bin -l ja
マイクから直接文字起こし可能。
出力形式
SRT生成
-osrt
JSON出力
-oj
10. 精度を上げるコツ
音声は 16kHz mono wav
ノイズ除去済み音源を使う
適切なモデルサイズ選択
--beam-size を増やす
例:
code:bash
--beam-size 5
性能が良くてすごいとのこと
M1 Proなら1時間の動画が10分ぐらいで変換できる
OpenAIの方は1日ぐらいかかる(?)らしい