画像生成は超圧縮技術
stable diffusionは学習に50億枚の画像とテキストを与えて、4GBのモデルで表現している、
ということはモデルのサイズを画像の枚数で割ると
一枚の画像辺り、平均1byteの表現力しかないことになる。
画像として扱うと、64*64でも10kbほどになるので、画像の特徴を読み取った超圧縮技術と言える。
非言語的な大まかな概念の学習から、線の一本一本の描き方に至るまでの抽象化技術が働いている
「画像を見て描く」のがトレスだとすると、「画像を学んで描く、画像を理解した上で描く」方に近い。
生成モデルは不可逆圧縮
従来の圧縮技術(劣化JPGなど)とは比べものにならない圧縮がかけられている&一枚ごとの画像を分離して取り出したりはできないため、既存技術の認識で「不可逆圧縮」「解凍」という認識は正しくない。
参考
https://twitter.com/Xray_000/status/1666465118614605825