关于IS与FID的计算原理,看一下:GAN的评价指标IS和FID-CSDN博客
最近需要测试图像的指标,然后特意去关注了一下相关的信息,然后主要用的评价指标为:
PSNR 和 SSIM
LPIPS
也叫作感知损失,比PSNR和SSIM更接近于真实人感到的感觉:
IS
计算原理:
在评判生成图像是否清晰方面,引入Inception模型,对生成图像 x 进行分类判断,得到一个1000维的分类向量 y 。如果图像 x 清晰,则该向量 y 在某一个维度上的取值较大(表示属于某一类的概率较大),而其他维度的取值较小。
在图像的多样性方面,假设我们生成20000张图像,总共有1000个类别,那么最理想的情况是每一类的个数是平均的,即每类图像的个数为20个。
缺陷:
缺陷就是生成的图像如果不属于Inception中的1000类,那么就会导致计算的IS值很小,它无法作为通用数据集的测试方法。
FID(IS的改进版本)
评估真实图像与生成的图像之间的距离,该距离越近,表明生成模型的效果越好,即图像的清晰度高,且多样性丰富。
计算原理:
FID拿掉了Inception模型最后的一个用于分类全连接层,将前面一层的2048维向量进行输出。在这里,Inception不再进行分类,而是进行特征提取,得到的2048维向量,每一个维度都表示着某种特征。
优势:
- 生成模型的训练集可以和Inception Net-V3不同
- 刷分不会导致生成图片质量变差
出自论文:GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium(https://arxiv.org/abs/1706.08500)
KID
Kernel Inception Distance (KID)。与FID类似,KID通过计算Inception表征之间最大均值差异的平方来度量两组样本之间的差异。此外,与所说的依赖经验偏差的FID不同,KID有一个三次核的无偏估计值,它更一致地匹配人类的感知。
4、Recall(多样性)
关于这个评价参数我是在“Diffusion-GAN: Training GANs with Diffusion”论文中看到的,地址为:https://arxiv.org/abs/2206.02262
原文对这个的解释:Lower FIDs indicate better fidelity, while higher Recalls indicate better diversity. We further report the improved Recall score introduced by Kynkäänniemi et al. [2019] to measure the sample diversity of generative models.
出自论文:Improved precision and recall metric for assessing generative models(https://arxiv.org/abs/1904.06991)
注意:这个只能用于“Evaluation of realism score using StyleGAN and FFHQ dataset can be run with:”。似乎对其他的数据集没有用,我刚试了一下其他的数据集,不行!