CLIP-SAE
https://huggingface.co/zer0int/CLIP-SAE-ViT-L-14zer0int/CLIP-SAE-ViT-L-14
SAE(Sparse Autoencoder)を使って敵対的学習されたCLIP
CLIPは画像の"内容"よりも、書かれているテキストに引っ張られてしまうという特徴があったりするが、それを防げるようになった
https://gyazo.com/fcd99e3ff2dec4aa718408b1fa01023a
ComfyUI実装
https://github.com/zer0int/ComfyUI-Nuke-a-Text-Encoderzer0int/ComfyUI-Nuke-a-Text-Encoder
文章がアーティスティックすぎて理解できないけれど、多分使えるnomadoor.icon