Token Merging
Meta AI は、追加のトレーニングを必要とせずに既存の Vision Transformer (ViT) モデルのレイテンシを短縮するための新しい研究を共有しています。 Token Merging (ToMe) と呼ばれる私たちのアプローチは、同様のトークンを組み合わせて、情報を失うことなく計算を削減します。私たちのアルゴリズムは軽量で、有害なオーバーヘッドなしで各レイヤーのトークンをマージできます。 ToMe は、ImageNet 1K (画像)、K400 (ビデオ)、AudioSet-2M (オーディオ) など、さまざまなドメインの主要なデータセットで評価されており、精度の低下を最小限に抑えて推論スループットを 2 ~ 3 倍向上させることがわかっています。研究コミュニティがこれらの進歩を再現して構築できるようにするために、ToMe コードとベンチマークをリリースしました。 table:tome
px 10枚生成 ToMe=0.5 x倍高速
512 85.36 79.24 1.08
768 175.78 151.89 1.16
1024 320.54 291.12 1.10
2048 2074.57 1503.11 1.38
2048が異常に遅いのはVAEデコードでout of memoryになり、tiled VAEに切り替えられているため
他の部分の最適化が進んでいるので、ToMeを使ってもいうほど速くなるわけではない xformersと相性が良いらしいので、pytorch 2.0だと効果が出ないのかも
解像度が高いほうが効果が出る(上の表だと出てないけど)ので、Hires.fixの後半部分に使うのはいいかも