clip-vit-large-patch14-336-text-encoder
https://gyazo.com/c48f432409f6b04c19d0239268f3f64f
https://huggingface.co/zer0int/clip-vit-large-patch14-336-text-encoderzer0int/clip-vit-large-patch14-336-text-encoder
https://huggingface.co/openai/clip-vit-large-patch14-336openai/clip-vit-large-patch14-336をテキストエンコーダとして使えるようにラップした(だけの)もの
元からCLIP Lとして使えたが、それに気づかれていなかった
clip-vit-large-patch14-336はCLIP Lより大きな次元のVision Transformerから学習されているためか、細部の精度が良い?
CLIP-KOに適用したもの
https://huggingface.co/zer0int/CLIP-KO-ViT-L-14-336-TypoAttackzer0int/CLIP-KO-ViT-L-14-336-TypoAttack