絵のコンテキスト圧縮
たまたまmk.iconが、LLMにおける「コンテキスト圧縮」という語をリアルで複数回耳にする
モデルにコンテキストの最大長がある理由
言語モデルは、トランスフォーマーを利用する唯一のニューラル・ネットワークではないことにも注目すべきです。たとえば、画像生成に使用される一部の拡散モデルには、アーキテクチャにセルフ・アテンションが組み込まれています。この場合、注目される文脈は、文章中の単語(または単語の一部)を表すトークン間の文脈ではなく、画像中のピクセル 間の文脈です。このようなモデルでは、コンテキスト長は、モデルがその関係を理解しなければならないピクセルの数に適用されます。一度に処理できないほど多くのピクセルを含む高解像度の画像では、そのコンテキスト・ウィンドウを超える可能性があります。
画像生成の場合、単語間ではなくピクセル間の文脈が存在する
加えて、テキスト×画像(Text-to-Image)でジャンルを横断している
生成イラストのプロンプト自体、タグ付けのように細切れなものが多い
プロンプトが書き手によって無意識に圧縮されている
「このプロンプトで理解してもらう」ように書かれている
「この言い方ならわかるだろう」は、少なからず圧縮されている
圧縮の展開行為に限界がある
入力されていない正解の照合はできない
その不足分を、最大限いい感じに埋めるような生成結果になる
生成イラストが機械的にきれいで画一的になりやすいことと関連する
圧縮が指摘されにくいのは、求めるのが「○○風」や「それっぽさ」でかまわないときに問題にならないから 人間も、きれいに整った、世間で高評価を狙うスタイルの絵を描く限り、同じ枠組みの競争相手になる 流行り、常識の適用=圧縮されたコンテキストの適用
人間にふさわしいのは、コンテキストが圧縮されていない絵を描くこと
絵自体が十分に説明している
要素を並べて済む絵にとどまらないことの模索