V-JEPA
https://www.youtube.com/watch?v=7UkJPwz_N_0
潜在空間(latent space)で予測誤差(Prediction Errors)を計算する点が特徴
他のモデルでは入力空間で予測誤差を取ろうとするため、計算が非効率
しかし、これだけだとどんな入力に対しても0を出せば"完璧"な表象となる
これを避けるために、少し制約を加えることになる
入力XとYのエンコーダーは遠すぎず近すぎない程度に類似するなど