🦊LTX-2
整えたやつnomadoor.icon
参考
推奨設定値
解像度
640×640(1:1)
768×512(3:2)
704×512(4:3)
※後処理で2倍にアップスケールするので、実際の出力は1280×1280になる
32の倍数である必要がある
FPS
24/25/30
フレーム
最大:257 frames(25fpsで約10秒)
推奨:121–161(品質とメモリのバランス)
8n+1になる必要がある
モデルのダウンロード
checkpoints (VAE同梱)
latent_upscale_models
loras
text_encoders
gguf (任意)
code:models
📂ComfyUI/
└── 📂models/
├── 📂checkpoints/
│ └── ltx-2-19b-dev-fp8.safetensors
├── 📂latent_upscale_models/
│ └── ltx-2-spatial-upscaler-x2-1.0.safetensors
├── 📂loras/
│ └── ltx-2-19b-distilled-lora-384.safetensors
├── 📂text_encoders/
│ └── gemma_3_12B_it_fp8_scaled.safetensors
└── 📂unet/
└── LTX-2-dev-XXXX.gguf ← gguf を使う場合のみ
workflow目次
以下全部8ステップ
text2video
https://gyazo.com/b6df8e98ae7d7337f2f32a65a10661d3
SDXLのように、低解像度で作ったものを、専用のモデルでアップスケール(2倍)するカスケード型
左: text2video
右: アップスケール
1. 出力された動画(latent)を二倍にアップスケール
だからノードの表示名変えるの嫌なんだ…
ちなみにLTX-2にはフレーム数を二倍にするtemporal upscale modelもあるが、ComfyUIには実装されていない?
temporal upscale モデルを使えば勝手にフレーム補完の動作になるnomadoor.icon
2. video2video
アップスケールの方では4~8stepで生成できるようになるdistilled-loraを併用して、スピードアップする
CFG蒸留もされているのでCFGは 1.0 に
σがマニュアル値なので分かりにくいが、Simple Scheduler の denoise ≈ 0.47 くらいに設定されている
text2video 8ステップ生成 (w/distilled lora)
text2videoの方にも、distilled-loraを適用して8ステップで生成する
https://gyazo.com/aa18f5b7bb97ae164002fdef187f5790
左: text2video
Distilled LoRAを適用
CFGは1.0に
なぜかこちらのほうが綺麗に生成できるnomadoor.icon
右: アップスケール
上と全く同じ
比較
ノーマル | w/distilled lora
https://gyazo.com/9524b966ab1d4b7b1ccbcf78e34552a9https://gyazo.com/2a89cce32669413fb7f5b3fe4ca22960
ノーマル
https://gyazo.com/7c425e911ab1618258f4883d3177fd64
w/distilled lora
https://gyazo.com/9323623c0e250003ebc07d87b6fcb7a3
distilledのほうが安定しているような気がしなくもないnomadoor.icon
ので以降全部8ステップ適用した状態のworkflow↓
image2video
https://gyazo.com/3ceb9e3b3fdbdf7e2187e709fe8022d7
text2videoに🟩部分を追加する
https://gyazo.com/d068c7287fbe9dc0e164542b5d423bd7
0. 画像読み込み
1. 1MPにリサイズ
2. 32の倍数になるようにクロップ
3. EmptyLTXVLatentVideoの解像度を設定
3.1 あとで二倍にアップスケールするので、画像を半分にリサイズ
3.2 その画像サイズを取得して、入力
4. LTXVPreprocess
🦊LTX-Video(0.98)からの特徴で、LTXVは綺麗すぎる画像をI2Vに使うとうまく動かないので、少し劣化させる 5. その画像をLTXVImgToVideoInplaceに入力
video latent に対して、1フレーム目に入力画像を差し込む
https://gyazo.com/f1878afbef8827ba5d6d70aee609c0e0
audio2video
音声を入力し、それにシンクロするような動画を生成する
https://gyazo.com/5f4301951dfc2a62f0feaec21aed425c
単に音声をエンコードしたものをaudio_latentに入力する
Set Latent Noise Maskを追加するworkflowを見かけることがある
多分audio2audioをやっていることになってしまうため?こうやっているんだと思うけど、あってもなくても同じ動画が生成されるnomadoor.icon
🚨音声の長さが生成する動画の長さより短い場合、ただのtext2videoになるので注意
無音でもいいので余計に長くしておく必要がある
https://gyazo.com/efe939505c195441cda8cc51a8019fd7
audio-image2video
image2videoとaudio2videoを組み合わせるだけ
https://gyazo.com/c07d99d56bef862ed590ea351e2d9b22
IC-LoRA
VACEのように、ポーズや深度マップから動画を作ります LoRAモデルのダウンロード
loras
code:models
📂ComfyUI/
└── 📂models/
└── 📂loras/
├── ltx-2-19b-ic-lora-canny-control.safetensors
├── ltx-2-19b-ic-lora-depth-control.safetensors
├── ltx-2-19b-ic-lora-detailer.safetensors
├── ltx-2-19b-ic-lora-pose-control.safetensors
└── ltx-2-19b-ic-lora-union-control-ref0.5.safetensors
IC-LoRA (Pose)
https://gyazo.com/e87ed3c369e8e0ed2473bffac25ec966
🟦部分
strengthは1.0固定
その他はリサイズ処理
https://gyazo.com/ba07959b5807a8d7254255a30697f34b
IC-LoRA Union (Depth)
https://gyazo.com/0fb3dfaaef6853aa77c3a15a89cfec09
制御画像は生成動画の半分の解像度のものを使う
latent_downscale_factorには 2.0(つまり半分)が入力される
https://gyazo.com/b9daae2bc559f9132a837a2299a44b48
IC-LoRA (Pose) + image2video
https://gyazo.com/641c1ae330f7f684103aabe121d5edd1
🟩image2videoのパーツをくっつける
reference2videoではないため、動かす画像は、ポーズ画像と同じポーズ・構図である必要がある
別途ControlNetや、Qwen-Image-Editなんかで作る
https://gyazo.com/f580b5e68fc33f5f34787fadcc01d36c
IC-LoRA (Detailer)
🪢カスタムノード
https://gyazo.com/bfae276aad1df7f61c4ce1bf3a22d30f
🟦先に動画を出力したいサイズにリサイズ
基本的には🟪detailer LoRAを適用してvideo2videoを行うだけ
distilled loraを使っていないが3ステップで生成する
detailer loraにステップ蒸留組み込まれてるのかな?わからないnomadoor.icon
これはUltimate SD Upscalerのように、空間・時間をタイリングしてサンプリングするのでVRAMを節約できる
このworkflowでは時間方向にしかタイリングしていない
https://gyazo.com/88bc81a63caee73d471378717b8e8c56https://gyazo.com/2cc2f84329cc043b1554b9e2c320e551
GGUF
モデルのダウンロード
latent_upscale_models
loras
text_encoders (gguf)
unet
vae
code:models
📂ComfyUI/
└── 📂models/
├── 📂latent_upscale_models/
│ └── ltx-2-spatial-upscaler-x2-1.0.safetensors
├── 📂loras/
│ └── ltx-2-19b-distilled-lora-384.safetensors
├── 📂text_encoders/
│ ├── gemma-3-12b-it-XXXX.gguf
│ └── ltx-2-19b-embeddings_connector_dev_bf16.safetensors
├── 📂unet/
│ └── LTX-2-dev-XXXX.gguf
└── 📂vae/
├── LTX2_audio_vae_bf16.safetensors
└── LTX2_video_vae_bf16.safetensors
text2video 8ステップ生成 (w/distilled lora)
https://gyazo.com/40eebde269f9710c01643212480dedd2