CLIPは数に弱い
1〜10人までの人数を表す言葉のコサイン類似度をCLIP(ViT-L/14)とT5(large)でそれぞれ見たヒートマップ
T5と比較するとCLIPの数の認識の適当さが際立って分かりやすい
https://pbs.twimg.com/media/GFLCxg1aQAAcFfa.jpg https://pbs.twimg.com/media/GFLE8tWaYAAX2e5.jpg
T5も8人と9人の間は苦手なのか〜bsahd.icon
でもCLIP適当すぎだろ
SDで2girlが割と増えたり減ったりするわけだmorisoba65536.icon
関連