画像生成
https://gyazo.com/07a1331a95343670aceef8ee58c89c15
ではZの値はどのように決めたらいいのか?
与えられたキーフレーズ(つまり指示文)と、生成された画像をCLIPというNNが読み込み、「渡された二つのデータがどのくらい違和感があるか」という「距離」を導き出す。この距離をもとに、Zへとフィードバック(緑の矢印)し、Zを少しずつ移動させていく。 CLIPが感じる「距離」が短くなればなるほど、絵は説得力のあるものになっていく —— という具合だ。
今、世界各国で作られている画像生成AIは、細かな方式は違えどだいたいこの方法で作られている。
言葉で画像生成
https://pbs.twimg.com/media/FZoKel4agAEo0um.jpg
画像あり画像生成