MeloTTS
https://github.com/myshell-ai/MeloTTSmyshell-ai/MeloTTS
https://gyazo.com/ca920e5db48a18c56f727909e0502b4a
ホーダチ | AI✖️Cloud✖️Dev | 外資×ひとり法人(@hokazuya)
出来た!
試したMITライセンス系のSpeech-To-Text,
Text-To-Speechの中では最速に感じる。
今日の空きで作ったにしてはかなりよいかな、と。
回答生成だけはどうにも遅いのでGPT-3.5T。
STT、TTSともに、GPUなし、
CPUのみ。モバイルも可能性ありかな。
Cotomoみたいなかわいい声とか入れたい。
https://video.twimg.com/ext_tw_video/1762410605829566464/pu/vid/avc1/1920x1080/raGuF67vBxDbqF7Q.mp4?tag=14#.mp4
Nuts(@Nuts99618279)
気になってモデルの部分とかちゃんと目を通してみたけど、これAGPLのBert-VITS2(https://github.com/fishaudio/Bert-VITS2/blob/master/models.py )のほぼコピペ(https://github.com/myshell-ai/MeloTTS/blob/main/melo/models.py )なので尚更ダメなのでは?
> Nuts(@Nuts99618279)
> MeloTTS、LGPLのnum2wordsをimportしてる時点でMITで公開するのは無理なのでは?
TTS