MMVC(リアルタイムボイチェン)でずんだもん他になる
特徴
元の声を残さないボイスチェンジャー
遅延すくなめ(0.5秒くらい)
ささやき声もそれっぽく出力してくれる
歌えば音程がある感じで出力してくれる
ボイチェン先となる音声ファイルを用意すれば目的の声になれる
利用規約などしっかり読んだ上で判断
参考
https://github.com/isletennos/MMVC_Trainer
ここのREADMEと各ノートブックに記載の内容を読めば大体できる
https://mmvc.readthedocs.io/ja/latest/chap1/chap1.html
公式ドキュメント
YouTube・ニコ動で「MMVC」で検索
Twitterで「MMVC」または「#MMVC_QA」で検索
サポートDiscord内で検索
準備
コーパス文という文章を自分で読み上げて、音声ファイルを用意する必要がある
録音〜機械学習までGoogle Colaboratory上で完結
ちゃんとした?GPUのPCがあればローカルでもできるはず たぶん
録音とかノイズ処理にこだわる人は好きなソフト使って録音しよう
録音特化のツールもあるみたい
https://w-okada.github.io/voice-changer/
https://github.com/w-okada/voice-changer
クライアントソフトのGPU版はNVidia製のグラフィックボードのみ対応(今のところ)
仮想オーディオデバイス(SYNCROOMドライバーやVoicemeter banana)を使えば、ずんだもんになった声をDiscordやVRChat越しに聴かせたりできる
試したこと
ITAコーパスという文章を100文読んだ
まあまあつかれた
アニメっぽく読む必要はなく、普段通りの話し方が望ましい
文の内容によらずテンションは一定の方がいいみたい
句点や読点のとおりに区切って読む
音声ファイルの長さは0.4秒以上16秒以下に収める
音声ファイルの無音部分はカットする
録音にはNVIDIA Broadcastをつかうといい感じになった(私の環境のばあい)
myvoiceフォルダの音声ファイル
音量が極端に大きかったり(音割れしてたり)小さかったりすると、出力後の声がプルプルしたり背後霊みたいなささやき声が入りがちになる
チュートリアルのずんだもんになるためにcolab上で学習する場合、Google Driveの空きがだいたい7GBくらい必要
コンピュータユニットを使い切ると24時間ほどクールタイムが必要になる(無料プランのばあい)
そのあいだは学習が再開できないので注意
課題
ローカル環境で学習させる
類似のプロダクト
Seiren Voice
こっちは非リアルタイムのボイチェン
用意した音声ファイルからゆかりさんボイスに変換する
学習の必要はなく、だれでもいきなり結月ゆかりさんやずんだもんになれる
有料
Paravo(旧ParakeetVC)
リアルタイムボイチェン
GPU不要
macOS対応
変換元音声は2行読み上げるだけ。楽ちんだ……
ずんだもん、つくよみちゃん、小春音アミは無料
その他ボイスはサブスクまたは買い切り
RVC
リアルタイムボイチェン
基本的にGPUが必要、変換方式によってはCPUのみでも動作する?
変換元音声の用意不要。スーパー楽ちんだ……
変換先のデータセットはプリセットがいくつかある。自分で用意することもできる
Beatrice
リアルタイムボイチェン
GPU不要、変換元音声の用意不要。
VSTプラグイン形式のため、好きなエフェクター(プラグイン)と組み合わせて声をつくっていくことができる
変換先のデータセットは自分で用意する必要あり