🦊LTX-Video
👈 |
👉 |
カスタムノードのインストール
モデルダウンロード
モデルを置く場所
$ path\to\ComfyUI\models\checkpoints\LTXV
解像度は32の倍数 ∧ 720 × 1280以下
フレーム数は8の倍数+1(e.g.:257)∧ 257未満
プロンプトは英語で詳細に書かなければいけない
text2video
https://gyazo.com/d4d58131d953e9562452d6ac30257aee
🟪devモデルを使います
テキストエンコーダはt5
🟥LTX-Videoはシンプルで短いプロンプトだとまっっっったく上手く生成できません
🟩ステップ毎のガイダンス (CFG/STG) を最適化します
公式がとりあえず使っとけとい言ってるので使っときます
text2video (蒸留モデル)
https://gyazo.com/68d1947a6037c734b98c0bc18e9132a8
🟪蒸留(distilled)モデルを使います
🟩蒸留モデルなのでFlux.1 devなどと同じ用に単なるCFG=1を使います
Samplerとsigmaについて
蒸留によって最適なシグマ値が決められているので(多分)、公式の推奨値をそのまま使います
image2video
https://gyazo.com/0b3edb496be6200463147a6a169df7de
値を大きくすればより劣化した画像になり、生成される動画がよりダイナミックになりますが、暴れすぎるときもあるため調整しましょう
🟥テキストだけでなく、画像も入力することができ、それぞれを参照しながら適切なプロンプトに書き換えてくれます
generative interpolation
https://gyazo.com/c4217e578531f9fdb725476069d7ba0a
🟥二枚の画像をバッチにしてPrompt Enhancerに渡しています
多分ちゃんと二枚見比べながらプロンプト書いてくれてるはず
https://gyazo.com/4d1d52846b69a1f34c3237a281d3742b
LTXVでフレーム補完する場合、ざっくりいうとのりしろのようなフレームが追加されます
この設定だと121f(生成したいフレーム) + 16f(のりしろ)で、137fサンプリングしています
のりしろは最終的な動画にはいらないので、デコードする前にこのノードで削除します
動画と編集後のイメージ画像を渡すと、それに従って動画を編集します
https://gyazo.com/2cb6f61351fa940a58dbde0de61a1b7d
https://gyazo.com/8f427be69785b082aaf78c4db8212a71https://gyazo.com/110c8d1161d9ae55b79a490b5290f21d
動画の最初と最後のフレームを抽出して別の方法で編集しておきます
source_posプロンプト(上側)には入力動画を説明するプロンプトを入力します
e.g. 緑のドレスを着た女性が体を振っている
target_posプロンプト(下側)には編集後の動画を説明するプロンプトを入力します
e.g. 赤いボタンを付けた紺色のドレスを着た女性が体を振っている
🟨参照画像のアスペクト比は、動画と全く同じである必要があります