MMVC(リアルタイムボイチェン)でずんだもん他になる
特徴
遅延すくなめ(0.5秒くらい)
ささやき声もそれっぽく出力してくれる
歌えば音程がある感じで出力してくれる
ボイチェン先となる音声ファイルを用意すれば目的の声になれる
利用規約などしっかり読んだ上で判断
参考
ここのREADMEと各ノートブックに記載の内容を読めば大体できる
公式ドキュメント
YouTube・ニコ動で「MMVC」で検索
Twitterで「MMVC」または「#MMVC_QA」で検索
サポートDiscord内で検索
準備
コーパス文という文章を自分で読み上げて、音声ファイルを用意する必要がある
録音〜機械学習までGoogle Colaboratory上で完結
ちゃんとした?GPUのPCがあればローカルでもできるはず たぶん
録音とかノイズ処理にこだわる人は好きなソフト使って録音しよう
録音特化のツールもあるみたい
クライアントソフトのGPU版はNVidia製のグラフィックボードのみ対応(今のところ)
試したこと
まあまあつかれた
アニメっぽく読む必要はなく、普段通りの話し方が望ましい
文の内容によらずテンションは一定の方がいいみたい
句点や読点のとおりに区切って読む
音声ファイルの長さは0.4秒以上16秒以下に収める
音声ファイルの無音部分はカットする
myvoiceフォルダの音声ファイル
音量が極端に大きかったり(音割れしてたり)小さかったりすると、出力後の声がプルプルしたり背後霊みたいなささやき声が入りがちになる
チュートリアルのずんだもんになるためにcolab上で学習する場合、Google Driveの空きがだいたい7GBくらい必要
コンピュータユニットを使い切ると24時間ほどクールタイムが必要になる(無料プランのばあい)
そのあいだは学習が再開できないので注意
課題
ローカル環境で学習させる
類似のプロダクト
こっちは非リアルタイムのボイチェン
用意した音声ファイルからゆかりさんボイスに変換する
学習の必要はなく、だれでもいきなり結月ゆかりさんやずんだもんになれる
有料
リアルタイムボイチェン
GPU不要
macOS対応
変換元音声は2行読み上げるだけ。楽ちんだ……
ずんだもん、つくよみちゃん、小春音アミは無料
その他ボイスはサブスクまたは買い切り
リアルタイムボイチェン
基本的にGPUが必要、変換方式によってはCPUのみでも動作する?
変換元音声の用意不要。スーパー楽ちんだ……
変換先のデータセットはプリセットがいくつかある。自分で用意することもできる
リアルタイムボイチェン
GPU不要、変換元音声の用意不要。
VSTプラグイン形式のため、好きなエフェクター(プラグイン)と組み合わせて声をつくっていくことができる
変換先のデータセットは自分で用意する必要あり