絵にストーリー性を持たせて作る(きっかけ、概要)

Flux.1以降、画像生成AIはLLMをTextEncoder(CLIP相当)として使用するものが増えている。

特にGPT Image以降、nano banana等、強力なLLMをTextEncoderに持つモデルがクローズドモデルでは主流に。

オープンモデルもQwenImage(Qwen 2.5-VLをTextEncoderに)をはじめ相当にテキスト理解力のあるLLMを制御装置に使うことが増えてきた

強力なTextEncoderを搭載している、ということは、SDXL以前で主流なdanbooru-tagsや簡単な構図指示を超えた「意図を持った構図指示」ができる

…はず、というのを検証するのが目的。

第0段が必要そう(第一弾予定のが想像以上に応用編だったので)morisoba65536.icon

絵にストーリー性を持たせて作る(第一段)として「簡易的な視線誘導テクニックをいくつか使った『フォーカスポイント』と『そうでないもの』のかき分け」を行う。

絵にストーリー性を持たせて作る(第二段)(今回のメイン)として「遊園地でのお忍びデート」という題材でビジュアルストーリーテリングやら絵のナラティブやら呼ばれるような「(比較的強めの)ストーリー文脈の埋め込み」を試みる

失敗例なども含めて制作過程を記載予定morisoba65536.icon