Deep Shrink Hires.fix

Kohyaさん考案の高解像度画像を破綻なく生成する手法

https://gyazo.com/38bd33101d8f57da26e5dc5703f8fc7dhttps://gyazo.com/a746ef2ce035651e0347f07e0612054c

アイデアは極めて単純で、「構図を決めるのはノイズに近いtimesteps」「構図を決めるのはU-Netの深い部分」らしいことが分かっていますので、その部分のlatentsを縮小してあげるだけです。

"Deep in U-Net, shrinking noisy latents for Hires.fix"の略ということで。

謎highresfixですが、depthを大きくするとU-Netの深い層で、浅くすると浅い層でlatentを縮小します。timestepsは適用範囲です。この例では1000~900で3層目で縮小、900~700で4層目で縮小します。

https://gyazo.com/d6d02d4f5af245204b5030ac8dc5a314

適用層を深くすると全体の構図は安定しますが、個別の物体がゆがむようです。浅くすると細部が破綻します。depth_1<=depth_2がよさそうです。

timestepsは大きくすると適用範囲が狭まるので構図が乱れて、小さくすると適用範囲が広がりディテールに影響します。

実装

https://gyazo.com/ca2641a360d30e667b8de41716267b26