Deep Shrink Hires.fix
Kohyaさん考案の高解像度画像を破綻なく生成する手法 https://gyazo.com/38bd33101d8f57da26e5dc5703f8fc7dhttps://gyazo.com/a746ef2ce035651e0347f07e0612054c
アイデアは極めて単純で、「構図を決めるのはノイズに近いtimesteps」「構図を決めるのはU-Netの深い部分」らしいことが分かっていますので、その部分のlatentsを縮小してあげるだけです。
"Deep in U-Net, shrinking noisy latents for Hires.fix"の略ということで。
謎highresfixですが、depthを大きくするとU-Netの深い層で、浅くすると浅い層でlatentを縮小します。timestepsは適用範囲です。この例では1000~900で3層目で縮小、900~700で4層目で縮小します。
https://gyazo.com/d6d02d4f5af245204b5030ac8dc5a314
適用層を深くすると全体の構図は安定しますが、個別の物体がゆがむようです。浅くすると細部が破綻します。depth_1<=depth_2がよさそうです。
timestepsは大きくすると適用範囲が狭まるので構図が乱れて、小さくすると適用範囲が広がりディテールに影響します。
実装
https://gyazo.com/ca2641a360d30e667b8de41716267b26
関連?