CoDi
https://gyazo.com/c8eab07997084b89fc586fc04b9a2872
@mi141: Any-to-Anyの生成を行う拡散モデルCoDiが出てますね。画像、動画、音、テキストから選んだ任意の組み合わせでX-to-Yという条件付き生成が可能です。 大変面白く読んだのですが、関連研究の記述がしょぼ(げふんげふん)控えめなので、私の知る限りで多少補足してみました。
https://gyazo.com/fabc66c03f4b6011e97b664bd148d31e
@mi141: 今回のCoDiでは、それぞれのモーダル用の拡散モデルを一旦学習した後、マルチモーダル生成用のモジュールを追加で学習しています。このモジュールは、各モーダルでノイズ付きデータから特徴を抽出し、他モーダルでのデノイズに(attentionを介して)活用してもらうためのものです。 https://gyazo.com/86be8c57804874d358c498b6a6449bd0
@mi141: この設計が面白いですね。普通に考えると全てのモーダル組み合わせに対してモジュールを用意しそうなものですが、「他のどのモーダルでも使えるように特徴抽出する」ように学習することでモーダルの数だけで済んでいます(そもそも一部の組み合わせしか学習データがない) https://gyazo.com/78fa971b84286a57fe01e29b7b7ce0b9