Kandinsky 5.0 T2V Lite

https://gyazo.com/89f6378a863688d7969df43fd79de166

Qwen2.5-VL および CLIP がテキスト埋め込みを提供

HunyuanVideo 3D VAE が動画を潜在空間にエンコード／デコード

DiT が主な生成モジュールとして、クロスアテンションを用いてテキスト条件付けを行う

Kandinskyブランドそのものは画像生成AIモデルから連番になっている