🦊LTX-2.3

👉 |

参考

https://docs.comfy.org/tutorials/video/ltx/ltx-2-3Comfy.org doc

https://docs.ltx.video/open-source-model/integration-tools/pytorch-apiPyTorch API(LTX)

https://www.reddit.com/r/StableDiffusion/comments/1rn3fjv/for_ltx2_use_triple_stage_sampling/For LTX-2 use triple stage sampling.

https://x.com/ltx_model/status/2029927683539325332プロンプトガイド

推奨設定値

解像度

640×640（1:1）

768×512（3:2）

704×512（4:3）

後処理でこれを2倍にするので、最終的には1.5MP程度

32の倍数である必要がある

🚨と、公式では言われているが、redditの3段workflowのほうが特にimage2videoの質がかなり良いnomadoor.icon

これは生成→2倍→2倍して1.5MPを目指している。つまり最初は 320 × 224 程度で生成することになる

FPS

24 / 25 / 48 / 50

フレーム

65 / 97 / 121 / 161 / 257

8n+1になる必要がある

推奨：121–161

最大目安：257

モデルのダウンロード

checkpoints (VAE同梱)

https://huggingface.co/Lightricks/LTX-2.3-fp8/blob/main/ltx-2.3-22b-dev-fp8.safetensorsltx-2.3-22b-dev-fp8.safetensors (29,.1GB)

latent_upscale_models

https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-spatial-upscaler-x2-1.1.safetensorsltx-2.3-spatial-upscaler-x2-1.1.safetensors (996 MB)

https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-temporal-upscaler-x2-1.0.safetensorsltx-2.3-temporal-upscaler-x2-1.0.safetensors (262 MB)

loras

https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-lora-384.safetensorsltx-2.3-22b-distilled-lora-384.safetensors (7.61 GB)

https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-lora-384-1.1.safetensorsltx-2.3-22b-distilled-lora-384-1.1.safetensors (7.61 GB)

text_encoders

https://huggingface.co/Comfy-Org/ltx-2/blob/main/split_files/text_encoders/gemma_3_12B_it_fp8_scaled.safetensorsgemma_3_12B_it_fp8_scaled.safetensors (13.2 GB)

code:models

📂ComfyUI/

└── 📂models/

├── 📂checkpoints/

│ └── ltx-2.3-22b-dev-fp8.safetensors

├── 📂latent_upscale_models/

│ └── ltx-2.3-spatial-upscaler-x2-1.1.safetensors

├── 📂loras/

│ └── ltx-2.3-22b-distilled-lora-384.safetensors

└── 📂text_encoders/

└── gemma_3_12B_it_fp8_scaled.safetensors

workflow目次

text2video

imgae2video

audio2video

audio-image2video

IC-LoRA (Union)

全部Distiiled LoRA適用で8ステップ生成

text2video

https://gyazo.com/5acdda1c54b67da6a92385617b86bbfb

LTX-2.3_text2video_distilled_3stage.json

最終1.5MPから逆算して最初のサンプリングのサイズを決める

最終1.5MP → 1/2 → 1/2(これ)

https://gyazo.com/2cd2d6eb51760a4928ba476bf2c0878b

imgae2video

https://gyazo.com/51071ef71ff6b6b3576cc2e94603e345

LTX-2.3_image2video_distilled_3stage.json

目標サイズにリサイズした画像を縦横それぞれ 1/4 にリサイズして、最初のサンプリングに入力

https://gyazo.com/bf4c40372ce923fb53f2867c33c27bc6https://gyazo.com/cb1a91ed174f29d4441ae1332590f3a0

audio2video

https://gyazo.com/b91573b793f09f14fe0ef0560e31fac4

LTX-2.3_audio2video_distilled_3stage.json

https://gyazo.com/4e0ce0ea62fc7138ffe7ea1892ec21b8

audio-image2video

https://gyazo.com/42e7f47c9df063f7701af2a3d9ecb12d

LTX-2.3_audio-image2video_distilled_3stage.json

https://gyazo.com/dc3fb2e0b92432ca2651ca121aea7205https://gyazo.com/69ebdac3cc6a3badd9452f0cbb345167

FLF2V

https://gyazo.com/f0cdfd8e0d5f0106e0d6fc98fdcb9aee

LTX-2.3_generative-Interpolation_distilled_1stage.json

https://gyazo.com/fad61f020fb0ed54bd23c59782bff81d

IC-LoRA

モデルのダウンロード

https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Union-Control/blob/main/ltx-2.3-22b-ic-lora-union-control-ref0.5.safetensorsltx-2.3-22b-ic-lora-union-control-ref0.5.safetensors

IC-LoRA (Union-Pose)

https://gyazo.com/8c991893fc582cbb575bd4fa6e234678

LTX-2.3_IC-LoRA(Pose)_distilled_2stage.json

IC-LoRAでは2ステージにしていますnomadoor.icon

IC-LoRA Unionは内部で制御画像を半分のサイズにして扱います

すると、仮に3ステージにすると、制御画像の大きさは半分の半分のさらに半分…100pxほどしかなくなってしまうのですが、そうなると流石に情報量が欠落しすぎてしまいます

https://gyazo.com/9aea1871cc24b0c98931d55bebb1c19chttps://gyazo.com/25f44e7a08247ae96a2ebcc3cb901d56

IC-LoRA Outpaint

https://huggingface.co/oumoumad/LTX-2.3-22b-IC-LoRA-Outpaint/blob/main/ltx-2.3-22b-ic-lora-outpaint.safetensorsltx-2.3-22b-ic-lora-outpaint.safetensors

https://gyazo.com/b43880620c819f250e61f6df0e494a7c

LTX-2.3_IC-LoRA-Outpaint _distilled_1stage.json

https://gyazo.com/676f9b4dfb10ea6bc80b25b46d3b63efhttps://gyazo.com/2776655edfe4896da1697755084b5e57

ID-LoRA

image2videoにreference-audio2videoが合体したようなもんです

5秒の参照音声と参照画像、テキストプロンプトから動画を生成します

モデルのダウンロード

https://huggingface.co/AviadDahan/LTX-2.3-ID-LoRA-TalkVid-3K/blob/main/lora_weights.safetensorsLTX-2.3-ID-LoRA-TalkVid-3K/lora_weights.safetensors

https://huggingface.co/AviadDahan/LTX-2.3-ID-LoRA-CelebVHQ-3K/blob/main/lora_weights.safetensorsLTX-2.3-ID-LoRA-CelebVHQ-3K/lora_weights.safetensors

分かりにくいのでをれぞれ LTX-2.3-ID-LoRA-TalkVid-3K.safetensors / LTX-2.3-ID-LoRA-CelebVHQ-3K.safetensors にリネームしてください

データセットが違うだけで同じものです。そこまで性能は変わりません

workflow

https://gyazo.com/cd8a2899358fbac24b90eebe9b10a823

LTX-2.3_ID-LoRA_distilled_3stage.json

image2videoがベース

そこにLoRAとID-LoRAノード、参照音声(5秒)を差し込む

https://gyazo.com/7d7fa9dc9a9f4fa1a08e25aff1285fd7https://gyazo.com/f179f159e0f3cf6fb05cf259b2828425