AI音声処理

FunAudioLLM/CosyVoice: Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability. https://github.com/FunAudioLLM/CosyVoice

VCClient

w-okada/voice-changer: リアルタイムボイスチェンジャー Realtime Voice Changer https://github.com/w-okada/voice-changer

RVC

Retrieval-based-Voice-Conversion-WebUI/docs/jp/README.ja.md at main · RVC-Project/Retrieval-based-Voice-Conversion-WebUI https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/docs/jp/README.ja.md

よくわかんねえんだけどVITSとかいうのに基づいた奴はモデル使い回せるのか？

AivisSpeechはStyle-Bert-VITS2がベースなのでStyle-Bert-VITS2モデルが使えるらしい

高品質合成音声モデル【Style-Bert-VITS2】をGoogle Colabで学習し、【Aivis Speech】で利用する方法 https://zenn.dev/asap/articles/5c437ce2943ed7#%E5%AD%A6%E7%BF%92%E6%B8%88%E3%81%BF%E3%81%AE%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92aivis-speech%E3%81%A7%E5%88%A9%E7%94%A8%E3%81%99%E3%82%8B

FunAudioLLM/SenseVoice: Multilingual Voice Understanding Model https://github.com/FunAudioLLM/SenseVoice

Sensevoiceは、自動音声認識（ASR）、音声言語識別（LID）、音声感情認識（SER）、オーディオイベント検出（AED）など、複数の音声理解機能を備えた音声基盤モデルです。

書き起こし自動音声認識（ASR）

ウィスパー

動画の音声付ける奴

Sketch2Sound

https://x.com/hirochuu8/status/1870834489695596682

Video to Audio

https://github.com/hkchengrex/MMAudio

メモ

ゆかりねっとコネクターneo

https://nmori.github.io/yncneo-Docs/

生成AI