絵にストーリー性を持たせて作る(きっかけ、概要)
Flux.1
以降、
画像生成AI
は
LLM
を
TextEncoder
(
CLIP
相当)として使用するものが増えている。
特に
GPT Image
以降、
nano banana
等、強力なLLMをTextEncoderに持つモデルが
クローズドモデル
では主流に。
オープンモデル
も
QwenImage
(
Qwen 2.5-VL
をTextEncoderに)をはじめ相当にテキスト理解力のあるLLMを制御装置に使うことが増えてきた
強力なTextEncoderを搭載している、ということは、SDXL以前で主流な
danbooru-tags
や簡単な
構図指示
を超えた「意図を持った構図指示」ができる
…はず、というのを検証するのが目的。
第0段が必要そう(第一弾予定のが想像以上に応用編だったので)
morisoba65536.icon
絵にストーリー性を持たせて作る(第一段)
として「簡易的な視線誘導テクニックをいくつか使った『フォーカスポイント』と『そうでないもの』のかき分け」を行う。
1-1:
絵にストーリー性を持たせて作る(第一段)_題材:アイドルのラストコンサート
1-2:
絵にストーリー性を持たせて作る(第一段)_題材:忘れられた空間での発見
絵にストーリー性を持たせて作る(第二段)
(今回のメイン)として「遊園地でのお忍びデート」という題材で
ビジュアルストーリーテリング
やら
絵のナラティブ
やら呼ばれるような「(比較的強めの)ストーリー文脈の埋め込み」を試みる
失敗例なども含めて制作過程を記載予定
morisoba65536.icon