絵にストーリー性を持たせて作る(きっかけ、概要)
Flux.1以降、画像生成AIはLLMをTextEncoder(CLIP相当)として使用するものが増えている。
特にGPT Image以降、nano banana等、強力なLLMをTextEncoderに持つモデルがクローズドモデルでは主流に。
オープンモデルもQwenImage(Qwen 2.5-VLをTextEncoderに)をはじめ相当にテキスト理解力のあるLLMを制御装置に使うことが増えてきた
強力なTextEncoderを搭載している、ということは、SDXL以前で主流なdanbooru-tagsや簡単な構図指示を超えた「意図を持った構図指示」ができる
…はず、というのを検証するのが目的。
第0段が必要そう(第一弾予定のが想像以上に応用編だったので)morisoba65536.icon
絵にストーリー性を持たせて作る(第一段)として「簡易的な視線誘導テクニックをいくつか使った『フォーカスポイント』と『そうでないもの』のかき分け」を行う。
1-1:絵にストーリー性を持たせて作る(第一段)_題材:アイドルのラストコンサート
1-2:絵にストーリー性を持たせて作る(第一段)_題材:忘れられた空間での発見
絵にストーリー性を持たせて作る(第二段)(今回のメイン)として「遊園地でのお忍びデート」という題材でビジュアルストーリーテリングやら絵のナラティブやら呼ばれるような「(比較的強めの)ストーリー文脈の埋め込み」を試みる
失敗例なども含めて制作過程を記載予定morisoba65536.icon