音楽生成
音声工学・音響工学
音声基盤モデル
動画生成
ISMIR 2023
https://jamir.connpass.com/event/292621/
A Large Language Model That Can Speak and Listen
https://google-research.github.io/seanet/audiopalm/examples/
【論文読み】音楽(楽譜表現)とテキストのマルチモーダル学習モデルCLaMPについて
https://qiita.com/yamathcy/items/ce738e73b6747d00e9f7
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models]
https://arxiv.org/abs/2301.12503
https://github.com/haoheliu/AudioLDM
【ソニー社内講演】音と動画の両方を扱う生成モデル(2024年研究動向)
https://www.youtube.com/watch?v=XUOQfzxxTE4
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
https://arxiv.org/abs/2501.08809
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation
https://arxiv.org/abs/2502.13128