MMVC（リアルタイムボイチェン）でずんだもん他になる

特徴

元の声を残さないボイスチェンジャー

遅延すくなめ（0.5秒くらい）

ささやき声もそれっぽく出力してくれる

歌えば音程がある感じで出力してくれる

ボイチェン先となる音声ファイルを用意すれば目的の声になれる

利用規約などしっかり読んだ上で判断

参考

https://github.com/isletennos/MMVC_Trainer

ここのREADMEと各ノートブックに記載の内容を読めば大体できる

https://mmvc.readthedocs.io/ja/latest/chap1/chap1.html

公式ドキュメント

YouTube・ニコ動で「MMVC」で検索

Twitterで「MMVC」または「#MMVC_QA」で検索

サポートDiscord内で検索

準備

コーパス文という文章を自分で読み上げて、音声ファイルを用意する必要がある

録音〜機械学習までGoogle Colaboratory上で完結

ちゃんとした？GPUのPCがあればローカルでもできるはず　たぶん

録音とかノイズ処理にこだわる人は好きなソフト使って録音しよう

録音特化のツールもあるみたい

https://w-okada.github.io/voice-changer/

https://github.com/w-okada/voice-changer

クライアントソフトのGPU版はNVidia製のグラフィックボードのみ対応（今のところ）

仮想オーディオデバイス（SYNCROOMドライバーやVoicemeter banana）を使えば、ずんだもんになった声をDiscordやVRChat越しに聴かせたりできる

試したこと

ITAコーパスという文章を100文読んだ

まあまあつかれた

アニメっぽく読む必要はなく、普段通りの話し方が望ましい

文の内容によらずテンションは一定の方がいいみたい

句点や読点のとおりに区切って読む

音声ファイルの長さは0.4秒以上16秒以下に収める

音声ファイルの無音部分はカットする

録音にはNVIDIA Broadcastをつかうといい感じになった（私の環境のばあい）

myvoiceフォルダの音声ファイル

音量が極端に大きかったり（音割れしてたり）小さかったりすると、出力後の声がプルプルしたり背後霊みたいなささやき声が入りがちになる

チュートリアルのずんだもんになるためにcolab上で学習する場合、Google Driveの空きがだいたい7GBくらい必要

コンピュータユニットを使い切ると24時間ほどクールタイムが必要になる（無料プランのばあい）

そのあいだは学習が再開できないので注意

課題

ローカル環境で学習させる

類似のプロダクト

Seiren Voice

こっちは非リアルタイムのボイチェン

用意した音声ファイルからゆかりさんボイスに変換する

学習の必要はなく、だれでもいきなり結月ゆかりさんやずんだもんになれる

有料

Paravo（旧ParakeetVC）

リアルタイムボイチェン

GPU不要

macOS対応

変換元音声は2行読み上げるだけ。楽ちんだ……

ずんだもん、つくよみちゃん、小春音アミは無料

その他ボイスはサブスクまたは買い切り

RVC

リアルタイムボイチェン

基本的にGPUが必要、変換方式によってはCPUのみでも動作する？

変換元音声の用意不要。スーパー楽ちんだ……

変換先のデータセットはプリセットがいくつかある。自分で用意することもできる

Beatrice

リアルタイムボイチェン

GPU不要、変換元音声の用意不要。

VSTプラグイン形式のため、好きなエフェクター（プラグイン）と組み合わせて声をつくっていくことができる

変換先のデータセットは自分で用意する必要あり