clip-vit-large-patch14-336-text-encoder
https://gyazo.com/c48f432409f6b04c19d0239268f3f64f
https://huggingface.co/zer0int/clip-vit-large-patch14-336-text-encoder
zer0int
/clip-vit-large-patch14-336-text-encoder
https://huggingface.co/openai/clip-vit-large-patch14-336
openai
/
clip-vit-large-patch14-336
をテキストエンコーダとして使えるようにラップした(だけの)もの
元から
CLIP L
として使えたが、それに気づかれていなかった
clip-vit-large-patch14-336
はCLIP Lより大きな次元のVision Transformerから学習されているためか、細部の精度が良い?
CLIP-KO
に適用したもの
https://huggingface.co/zer0int/CLIP-KO-ViT-L-14-336-TypoAttack
zer0int/
CLIP-KO-ViT-L-14-336-TypoAttack