so-vits-svcを試す
前提
摩美々のセリフボイスを学習させてみる
無音部をカットした、約38分のセリフ音源を用意
12000ステップ学習させ、推論
推論結果
【セリフ】
甘奈 → 摩美々 (auto_predict_f0)
https://scrapbox.io/files/6429ef04ad60a2001bd6d46f.wav
↑の再生速度を遅くしたもの
https://scrapbox.io/files/6429efb79fb6fa001ce4a22f.wav
【歌声】
灯織 → 摩美々 (auto_predict_f0)
https://scrapbox.io/files/6429f1db003d0c001b223e2d.wav
灯織 → 摩美々 (auto_predict_f0不使用)
https://scrapbox.io/files/6429f207ddf5bf001cf6e0e8.wav
感想など
セリフの変換は比較的うまくいった
データセットにセリフボイスを使ったため?
声の出し方も摩美々っぽくなっていて驚いた
歌声の変換では裏声のようになってしまった
変換元の音程が高いのも原因だと思うが
セリフボイスのみの学習では難しい?
どこかに話声の学習でも歌声を変換できると書いてあったが
要検証
データセットに高いピッチの音源がなかったことが原因だと思う
現に、VocalShifter等で低い声のピッチを過度に高めるとこんな裏声になる
推論結果にノイズが乗ってしまった
これはデータセットに原因があると思う
摩美々のセリフには「……」が多く、息などのノイズを強く学習してしまったのでは?
「……」だけのセリフ、「……」を含む短いセリフを除いたデータセットで、もう一度学習、検証してみたい
人力VOCALOIDへの応用案
元曲の歌声を変換しただけの動画はナンセンス
足りない音素を補うために、別人物の声を変換したものを使うなど?
もしso-vits-svcで音素を補完することができれば、人力のクオリティの向上に期することができるのではないかと思い、その補完のための実験としてこの動画の音声を作成しています。
既存のUTAU音源を変換し、そのままUTAUで使う
そんなことはしてはいけない
こういう事をすると、またAI利用者の倫理感がうんたらかんたら言われる
データセット準備の手間と、学習に掛かる時間がネック
今回は学習に約5時間ほど掛かった
Core i7-11700F
NVIDIA GeForce RTX 3060
今回の試用では、活用法や改善案などの可能性が見えたように感じる
今後も色々試して、実際の制作に使ってみたい
楽しかった
参考
so-vits-svcを試す(wsl2)
so-vits-svcで原曲のように歌わせる方法 - YTPMV.info
読み上げ白上フブキ ver2.1 / so-vits-svc 4.0 解説 - セーブポイント