音楽生成
ISMIR 2023
A Large Language Model That Can Speak and Listen
【論文読み】音楽(楽譜表現)とテキストのマルチモーダル学習モデルCLaMPについて
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models]
【ソニー社内講演】音と動画の両方を扱う生成モデル(2024年研究動向)
https://www.youtube.com/watch?v=XUOQfzxxTE4
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation