絵のコンテキスト圧縮
from コンテキスト圧縮
たまたまmk.iconが、LLMにおける「コンテキスト圧縮」という語をリアルで複数回耳にする
生成イラストにもそういう観点はないのか
コンテキスト・ウィンドウとは? | IBM
モデルにコンテキストの最大長がある理由
言語モデルは、トランスフォーマーを利用する唯一のニューラル・ネットワークではないことにも注目すべきです。たとえば、画像生成に使用される一部の拡散モデルには、アーキテクチャにセルフ・アテンションが組み込まれています。この場合、注目される文脈は、文章中の単語(または単語の一部)を表すトークン間の文脈ではなく、画像中のピクセル 間の文脈です。このようなモデルでは、コンテキスト長は、モデルがその関係を理解しなければならないピクセルの数に適用されます。一度に処理できないほど多くのピクセルを含む高解像度の画像では、そのコンテキスト・ウィンドウを超える可能性があります。
画像生成の場合、単語間ではなくピクセル間の文脈が存在する
加えて、テキスト×画像(Text-to-Image)でジャンルを横断している
生成イラストのプロンプト自体、タグ付けのように細切れなものが多い
プロンプトが書き手によって無意識に圧縮されている
「このプロンプトで理解してもらう」ように書かれている
「この言い方ならわかるだろう」は、少なからず圧縮されている
圧縮されたコンテキストには正解が添えられていない
圧縮の展開行為に限界がある
入力されていない正解の照合はできない
その不足分を、最大限いい感じに埋めるような生成結果になる
少ないコンテキストで長い文章は、元が足りなくて埋めている範囲が広い
生成イラストが機械的にきれいで画一的になりやすいことと関連する
再現性が低い=色が曖昧になる=彩度が低くなる
圧縮が指摘されにくいのは、求めるのが「○○風」や「それっぽさ」でかまわないときに問題にならないから
スタイル転送
拠り所としている創造性のあり方の違い#684c33c8000000000029f177
人間も、きれいに整った、世間で高評価を狙うスタイルの絵を描く限り、同じ枠組みの競争相手になる
流行り、常識の適用=圧縮されたコンテキストの適用
想像力の肩代わり力
人間にふさわしいのは、コンテキストが圧縮されていない絵を描くこと
絵自体が十分に説明している
作品自身が作品の説明になっていなければ、人は立ち止まらない
人間が作るとノイズが大きいことと付き合う
要素を並べて済む絵にとどまらないことの模索
地雷デッキみたいな絵
生成に対する見解を適当に済ませない#69409e7d0000000000a75615