DistillT5
最近のモデルのテキストエンコーダとして使われているT5(T5-XXL)は、C4のようなデータセットで学習されているが、C4には視覚的な描写ではないテキストも多く含んでいる(ニュース記事、小説 etc.) そのため、画像生成タスクとして使うには冗長な上、"Love is patient ..."のような非視覚的なプロンプトを使うと、全然関係ない画像が生成される
https://gyazo.com/d5b026c808806df0cbb31a752fa041d1
知識蒸留をする
ただし、最終出力のみで知識蒸留をするとモード崩壊が起こる ここでは、教師と生徒のテキストエンコーディングそれぞれを、拡散モデルの入力として与え、その出力(生成される潜在変数に関する予測)を比較することで、どちらのエンコーディングがより適切に画像生成に寄与しているかを判断します。ChatGPT.icon
Step-Following Training Scheme
拡散モデルでの「ステップごとの予測」を利用することで、生成過程の各段階で教師と生徒の予測の違いを補正するアルゴリズム
T5-XXLを教師として様々なサイズの蒸留モデルを作成
T5-XL / T5-Large / T5-Base / T5-Small
BaseはXXLの50分の1のパラメータ数ながら同等の性能
ただし、テキストレンダリングに関しては小さいモデルになるほど悪化する
まあ言うて実はT5-xxlのEncoderのみだと5Bちょっとくらい(umT5-xxlだと6Bちょっと)なので実はLLMの中規模くらいのモデルとそんなに変わらないのだが… ComfyUIで使う