CogVLM2-Llama3-Caption
https://huggingface.co/THUDM/cogvlm2-llama3-captionTHUDM/cogvlm2-llama3-caption
CogVideoXのトレーニングプロセスでビデオデータをテキストに変換するために使用されるキャプションモデル
CogVLM