LTX-Video
LTX-Videoは、リアルタイムで高品質な動画を生成できる初のDiTベースの動画生成モデルです。このモデルは、768x512の解像度で24FPSの動画を、視聴する時間よりも速く生成することが可能です。多様な動画を含む大規模なデータセットで訓練されており、現実的で多様なコンテンツを持つ高解像度の動画を生成できます。 imaeg2videoテクニックメモ
このモデルは動画でトレーニングされているため、完全に綺麗な画像は苦手なようです。そのため、ffmpegを使って画像を処理し、h264コーデックでCRF値を20〜30に設定して圧縮すると良いとのことです。これだけでモデルが画像を認識し、実際に処理を行うようになるようです。