画像生成モデルのメジャーな評価指標
前置き
GANやDiffusion Model、Flow Modelといった画像を生成するモデルが存在するが、そのモデルの良し悪しを定量的に評価する
指標が存在する。
以下は、その中でも頻繁に用いられる指標の例である。
IS(Inception Score)
FID(Frechet Inception Distance)
CLIP Score
LPIPS(Learned Perceptual Image Patch Similality)
IS(Inception Score)
事前学習済みCNN「Inception-v3」を用いた、画像のクオリティと多様性に関する評価指標
生成画像のクオリティが高く、多様な画像を生成可能な手法に対して、高いISが付く
なるべくいろんな画像が生成可能であるとよい手法に対して使う
人間の知覚と必ずしも合致するとは限らず
FID(Frechet Inception Score)
事前学習済みCNN「Inception-v3」を用いた、実画像との類似度に基づく評価指標
実画像と生成画像のベクトルの平均・共分散を利用
ISと異なり、実画像との比較をおこなうことで、画像のリアリティ的な評価が可能
主にGANの評価指標として使用
人間の知覚と必ずしも合致するとは限らず
CLIP Score
マルチモーダルモデル「CLIP」を用いた、テキストと生成画像の類似度による評価指標
テキストに合った画像が生成できている手法に対して、高いCLIP Scoreが付く
主にテキストによる画像生成(Text2Image)をおこなう手法の評価に利用
人間の知覚と必ずしも合致するとは限らず
CLIPの概要や使い方は「CLIPで画像分類をしてみよう」を参考
LPIPS
学習済みCNNの畳み込み層の画像特徴量を用いた評価指標
より人間の知覚に近い値が算出可能
#Yuma_Oe