HyperTile
U-Netは階層毎に潜在変数の解像度を4倍下げる
最初のU-Netの階層だけが大きい解像度を扱い、それ以降はそうでもない
つまり、最初の層だけタイル化したらよい(?)
HyperTileのアプローチでは、attention計算の前に、クエリー、キー、値を最初の深度でのみタイル化し、その後データを再アスプリングします。
https://gyazo.com/ccc02075d843b36be6af2787a2374f03
4K画像では4倍近く高速になる
デフォルトで搭載された
関連