Switti
https://gyazo.com/944ad46af102d7ce2b033537cd02a92a
bychatgpt.icon
VARの問題点
VARでは、画像をスケール(解像度)ごとに生成する際、すべてのスケールで過去の生成結果を参考にする「causal transformer」を使用していました。この方法では、計算負荷が高く、注意機構(Attention)の計算が複雑でした。 Swittiの改良
Swittiでは、現在のスケールだけを考慮する「non-causal transformer」に変更しました。この改良により、計算が効率化され、メモリ使用量が減り、処理速度が向上しました。また、この方法でも生成品質(CLIPスコアやPickスコア)が向上しています。