絵のコンテキスト圧縮

たまたまmk.iconが、LLMにおける「コンテキスト圧縮」という語をリアルで複数回耳にする

生成イラストにもそういう観点はないのか

モデルにコンテキストの最大長がある理由

言語モデルは、トランスフォーマーを利用する唯一のニューラル・ネットワークではないことにも注目すべきです。たとえば、画像生成に使用される一部の拡散モデルには、アーキテクチャにセルフ・アテンションが組み込まれています。この場合、注目される文脈は、文章中の単語（または単語の一部）を表すトークン間の文脈ではなく、画像中のピクセル間の文脈です。このようなモデルでは、コンテキスト長は、モデルがその関係を理解しなければならないピクセルの数に適用されます。一度に処理できないほど多くのピクセルを含む高解像度の画像では、そのコンテキスト・ウィンドウを超える可能性があります。

画像生成の場合、単語間ではなくピクセル間の文脈が存在する

加えて、テキスト×画像（Text-to-Image）でジャンルを横断している

生成イラストのプロンプト自体、タグ付けのように細切れなものが多い

プロンプトが書き手によって無意識に圧縮されている

「このプロンプトで理解してもらう」ように書かれている

「この言い方ならわかるだろう」は、少なからず圧縮されている

圧縮されたコンテキストには正解が添えられていない

圧縮の展開行為に限界がある

入力されていない正解の照合はできない

その不足分を、最大限いい感じに埋めるような生成結果になる

少ないコンテキストで長い文章は、元が足りなくて埋めている範囲が広い

生成イラストが機械的にきれいで画一的になりやすいことと関連する