AI音声処理
TTS
ボイスチェンジャー
https://note.com/npaka/n/n02c39c194fa6
音声認識 ASR:Automatic Speech Recognition
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
https://github.com/openai/whisper
スタンドアロン、TTS
AivisSpeech
https://aivis-project.com/
VOICEVOX互換
Web、TTSとか
https://github.com/fishaudio/fish-speech
https://speech.fish.audio/ja/samples/
https://speech.fish.audio/start_agent/
GPU8GB(量子化) 16GB以上推奨
https://github.com/RVC-Boss/GPT-SoVITS
簡単、即学習
https://github.com/litagin02/Style-Bert-VITS2
この辺までボイスモデル色々あるやつな
https://www.youtube.com/watch?v=aTUSzgDl1iY
https://www.youtube.com/watch?v=unbfezJPEog 例とかあった
https://aistudio.google.com/
https://huggingface.co/spaces/akhaliq/anychat
https://elevenlabs.io/app/speech-synthesis/text-to-speech
https://app.nijivoice.com/
あ、ボイチェン
Beatrice | 軽量・低遅延AIボイスチェンジャー https://prj-beatrice.com/
Collabで学習させてみる
Beatrice
Seed-VC
https://huggingface.co/spaces/Plachta/Seed-VC
OpenVoice
myshell-ai/OpenVoice: Instant voice cloning by MIT and MyShell. Audio foundation model. https://github.com/myshell-ai/OpenVoice
CosyVoice
FunAudioLLM/CosyVoice: Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability. https://github.com/FunAudioLLM/CosyVoice
VCClient
w-okada/voice-changer: リアルタイムボイスチェンジャー Realtime Voice Changer https://github.com/w-okada/voice-changer
RVC
Retrieval-based-Voice-Conversion-WebUI/docs/jp/README.ja.md at main · RVC-Project/Retrieval-based-Voice-Conversion-WebUI https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/docs/jp/README.ja.md
よくわかんねえんだけどVITSとかいうのに基づいた奴はモデル使い回せるのか?
AivisSpeechはStyle-Bert-VITS2がベースなのでStyle-Bert-VITS2モデルが使えるらしい
高品質合成音声モデル【Style-Bert-VITS2】をGoogle Colabで学習し、【Aivis Speech】で利用する方法 https://zenn.dev/asap/articles/5c437ce2943ed7#%E5%AD%A6%E7%BF%92%E6%B8%88%E3%81%BF%E3%81%AE%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92aivis-speech%E3%81%A7%E5%88%A9%E7%94%A8%E3%81%99%E3%82%8B
FunAudioLLM/SenseVoice: Multilingual Voice Understanding Model https://github.com/FunAudioLLM/SenseVoice
Sensevoiceは、自動音声認識(ASR)、音声言語識別(LID)、音声感情認識(SER)、オーディオイベント検出(AED)など、複数の音声理解機能を備えた音声基盤モデルです。
書き起こし 自動音声認識(ASR)
ウィスパー
動画の音声付ける奴
Sketch2Sound
https://x.com/hirochuu8/status/1870834489695596682
Video to Audio
https://github.com/hkchengrex/MMAudio
メモ
ゆかりねっとコネクターneo
https://nmori.github.io/yncneo-Docs/
生成AI