🦊LTX-2.3
🏠 | 🦊雑に学ぶComfyUI
👈 | 🦊LTX-2
👉 |
LTX-2.3
参考
https://docs.comfy.org/tutorials/video/ltx/ltx-2-3Comfy.org doc
https://docs.ltx.video/open-source-model/integration-tools/pytorch-apiPyTorch API(LTX)
https://www.reddit.com/r/StableDiffusion/comments/1rn3fjv/for_ltx2_use_triple_stage_sampling/For LTX-2 use triple stage sampling.
https://x.com/ltx_model/status/2029927683539325332プロンプトガイド
推奨設定値
解像度
640×640(1:1)
768×512(3:2)
704×512(4:3)
後処理でこれを2倍にするので、最終的には1.5MP程度
32の倍数である必要がある
🚨と、公式では言われているが、redditの3段workflowのほうが特にimage2videoの質がかなり良いnomadoor.icon
これは生成→2倍→2倍して1.5MPを目指している。つまり最初は 320 × 224 程度で生成することになる
FPS
24 / 25 / 48 / 50
フレーム
65 / 97 / 121 / 161 / 257
8n+1になる必要がある
推奨:121–161
最大目安:257
モデルのダウンロード
checkpoints (VAE同梱)
https://huggingface.co/Lightricks/LTX-2.3-fp8/blob/main/ltx-2.3-22b-dev-fp8.safetensorsltx-2.3-22b-dev-fp8.safetensors (29,.1GB)
latent_upscale_models
https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-spatial-upscaler-x2-1.1.safetensorsltx-2.3-spatial-upscaler-x2-1.1.safetensors (996 MB)
https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-temporal-upscaler-x2-1.0.safetensorsltx-2.3-temporal-upscaler-x2-1.0.safetensors (262 MB)
loras
https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-lora-384.safetensorsltx-2.3-22b-distilled-lora-384.safetensors (7.61 GB)
https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-lora-384-1.1.safetensorsltx-2.3-22b-distilled-lora-384-1.1.safetensors (7.61 GB)
text_encoders
https://huggingface.co/Comfy-Org/ltx-2/blob/main/split_files/text_encoders/gemma_3_12B_it_fp8_scaled.safetensorsgemma_3_12B_it_fp8_scaled.safetensors (13.2 GB)
code:models
📂ComfyUI/
└── 📂models/
├── 📂checkpoints/
│ └── ltx-2.3-22b-dev-fp8.safetensors
├── 📂latent_upscale_models/
│ └── ltx-2.3-spatial-upscaler-x2-1.1.safetensors
├── 📂loras/
│ └── ltx-2.3-22b-distilled-lora-384.safetensors
└── 📂text_encoders/
└── gemma_3_12B_it_fp8_scaled.safetensors
workflow目次
text2video
imgae2video
audio2video
audio-image2video
IC-LoRA (Union)
全部Distiiled LoRA適用で8ステップ生成
text2video
https://gyazo.com/5acdda1c54b67da6a92385617b86bbfb
LTX-2.3_text2video_distilled_3stage.json
最終1.5MPから逆算して最初のサンプリングのサイズを決める
最終1.5MP → 1/2 → 1/2(これ)
https://gyazo.com/2cd2d6eb51760a4928ba476bf2c0878b
imgae2video
https://gyazo.com/51071ef71ff6b6b3576cc2e94603e345
LTX-2.3_image2video_distilled_3stage.json
目標サイズにリサイズした画像を 縦横それぞれ 1/4 にリサイズして、最初のサンプリングに入力
https://gyazo.com/bf4c40372ce923fb53f2867c33c27bc6https://gyazo.com/cb1a91ed174f29d4441ae1332590f3a0
audio2video
https://gyazo.com/b91573b793f09f14fe0ef0560e31fac4
LTX-2.3_audio2video_distilled_3stage.json
https://gyazo.com/4e0ce0ea62fc7138ffe7ea1892ec21b8
audio-image2video
https://gyazo.com/42e7f47c9df063f7701af2a3d9ecb12d
LTX-2.3_audio-image2video_distilled_3stage.json
https://gyazo.com/dc3fb2e0b92432ca2651ca121aea7205https://gyazo.com/69ebdac3cc6a3badd9452f0cbb345167
FLF2V
https://gyazo.com/f0cdfd8e0d5f0106e0d6fc98fdcb9aee
LTX-2.3_generative-Interpolation_distilled_1stage.json
https://gyazo.com/fad61f020fb0ed54bd23c59782bff81d
IC-LoRA
モデルのダウンロード
https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Union-Control/blob/main/ltx-2.3-22b-ic-lora-union-control-ref0.5.safetensorsltx-2.3-22b-ic-lora-union-control-ref0.5.safetensors
IC-LoRA (Union-Pose)
https://gyazo.com/8c991893fc582cbb575bd4fa6e234678
LTX-2.3_IC-LoRA(Pose)_distilled_2stage.json
IC-LoRAでは2ステージにしていますnomadoor.icon
IC-LoRA Unionは内部で制御画像を半分のサイズにして扱います
すると、仮に3ステージにすると、制御画像の大きさは半分の半分のさらに半分…100pxほどしかなくなってしまうのですが、そうなると流石に情報量が欠落しすぎてしまいます
https://gyazo.com/9aea1871cc24b0c98931d55bebb1c19chttps://gyazo.com/25f44e7a08247ae96a2ebcc3cb901d56
IC-LoRA Outpaint
https://huggingface.co/oumoumad/LTX-2.3-22b-IC-LoRA-Outpaint/blob/main/ltx-2.3-22b-ic-lora-outpaint.safetensorsltx-2.3-22b-ic-lora-outpaint.safetensors
https://gyazo.com/b43880620c819f250e61f6df0e494a7c
LTX-2.3_IC-LoRA-Outpaint _distilled_1stage.json
https://gyazo.com/676f9b4dfb10ea6bc80b25b46d3b63efhttps://gyazo.com/2776655edfe4896da1697755084b5e57
ID-LoRA
image2videoにreference-audio2videoが合体したようなもんです
5秒の参照音声と参照画像、テキストプロンプトから動画を生成します
モデルのダウンロード
https://huggingface.co/AviadDahan/LTX-2.3-ID-LoRA-TalkVid-3K/blob/main/lora_weights.safetensorsLTX-2.3-ID-LoRA-TalkVid-3K/lora_weights.safetensors
https://huggingface.co/AviadDahan/LTX-2.3-ID-LoRA-CelebVHQ-3K/blob/main/lora_weights.safetensorsLTX-2.3-ID-LoRA-CelebVHQ-3K/lora_weights.safetensors
分かりにくいのでをれぞれ LTX-2.3-ID-LoRA-TalkVid-3K.safetensors / LTX-2.3-ID-LoRA-CelebVHQ-3K.safetensors にリネームしてください
データセットが違うだけで同じものです。そこまで性能は変わりません
workflow
https://gyazo.com/cd8a2899358fbac24b90eebe9b10a823
LTX-2.3_ID-LoRA_distilled_3stage.json
image2videoがベース
そこにLoRAとID-LoRAノード、参照音声(5秒)を差し込む
https://gyazo.com/7d7fa9dc9a9f4fa1a08e25aff1285fd7https://gyazo.com/f179f159e0f3cf6fb05cf259b2828425