clip-vit-large-patch14-336-text-encoder

https://gyazo.com/c48f432409f6b04c19d0239268f3f64f

https://huggingface.co/openai/clip-vit-large-patch14-336openai/clip-vit-large-patch14-336をテキストエンコーダとして使えるようにラップした(だけの)もの

元からCLIP Lとして使えたが、それに気づかれていなかった

clip-vit-large-patch14-336はCLIP Lより大きな次元のVision Transformerから学習されているためか、細部の精度が良い？

CLIP-KOに適用したもの