whisper.cpp

from Whisper

https://gyazo.com/188d9d2ef938990d14322cfaee6f54ba

Whisperを C/C++で軽量実装したプロジェクト

CPUのみで動作可能で、ローカル実行・低リソース環境・エッジ用途に適している

github

$ , whisper-cli

モデルのダウンロード

$ whisper-cpp-download-ggml-model small small

current dirにダウンロードされる

利用可能モデル例:

table:_

モデル精度速度用途

tiny 低最速テスト

base 中速い軽量用途

small 高普通実用

medium 高遅い高精度

large 最高遅い本番高精度

基本的な使い方

$ whisper-cli -m path/to/ggml-base.bin -f audio.wav

ダウンロードしたモデルのpathを指定して実行する

よく使うオプション

-m

モデル指定

-f

入力音声ファイル

-l

言語指定（例: ja）

-otxt

テキスト出力

-osrt

SRT字幕出力

-of

出力ファイル名

-t

スレッド数

-ngl

GPU使用レイヤ数 (Metal/CUDA)

リアルタイムマイク入力

$ whisper-stream -m path/to/ggml-small.bin -l ja

マイクから直接文字起こし可能。

出力形式

SRT生成

-osrt

JSON出力

-oj

10. 精度を上げるコツ

音声は 16kHz mono wav

ノイズ除去済み音源を使う

適切なモデルサイズ選択

--beam-size を増やす

例:

code:bash

--beam-size 5

rebuild.fm 348の1:01:37~で知った

@miyagawaさんはC++の方を使ったらしい

性能が良くてすごいとのこと

M1 Proなら1時間の動画が10分ぐらいで変換できる

OpenAIの方は1日ぐらいかかる(?)らしい