FID 彩票:量化生成模型评估中的隐藏随机性
摘要
本文分析了不同训练种子和采样种子下FID分数的方差,揭示了图像生成评估中显著的可重复性问题。它提出了一种新的评估协议,包括误差带和每单元最优引导调整。
查看缓存全文
缓存时间: 2026/06/20 14:27
论文页面 - FID抽奖:量化生成模型评估中的隐藏随机性
来源:https://huggingface.co/papers/2606.20536
摘要
针对不同训练和采样种子的FID方差分析揭示了图像生成评估中显著的可重复性问题:重新训练造成的波动远大于重新采样。因此建议采用包含误差棒和最优引导调优的更新评估协议。
Frechet Inception Distance(FID)是图像生成领域事实上的评判标准,然而大多数论文仅报告单一训练模型、单一采样种子得出的单一数值。如果我们重新训练模型,或仅从模型中重新采样,该数值的可重复性如何?本文将FID视为训练种子和生成种子二维平面上的随机变量,直接在数百个基于类别条件ImageNet 256x256训练的SiT网络上测量其方差。我们报告了以下令人惊讶的发现:(a) 使用相同的训练配方但更换种子重新训练模型,其在Inception特征空间中的FID波动幅度是从固定网络中重新采样波动的3.2倍。(b) 这一差距由三个因素驱动:随机初始化、数据排序以及流匹配损失的每步高斯噪声。(c) 增加计算量或模型规模几乎无法缩小差距,FID的变异系数(CoV)保持在1-2%的范围内。(d) 每个单元的免分类器引导调优可将差距减半,但会重新排序哪些种子效果最佳;幸运的训练种子达到相同FID所需的计算量比不幸的种子少达2倍。基于这些发现,我们推荐一种新的FID评估协议:在每单元最优引导下进行评估,将任何小于经验测量值约1.3% CoV的FID差距视为不确定,并报告多个训练种子的误差棒,而非单一的FID数值。
查看arXiv页面(https://arxiv.org/abs/2606.20536)查看PDF(https://arxiv.org/pdf/2606.20536)项目页面(https://kyutai.org/fid-lottery/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20536)
在您的智能体中获取本论文:
hf papers read 2606.20536
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接本论文
在模型 README.md 中引用 arxiv.org/abs/2606.20536 可将其链接至此页面。
引用此论文的数据集0
没有数据集链接本论文
在数据集 README.md 中引用 arxiv.org/abs/2606.20536 可将其链接至此页面。
引用此论文的Spaces0
没有Space链接本论文
在Space README.md 中引用 arxiv.org/abs/2606.20536 可将其链接至此页面。
包含此论文的收藏集0
没有收藏集包含本论文
将本论文添加到收藏集(https://huggingface.co/new-collection)以将其链接至此页面。
相似文章
用于视觉生成的表示 Fréchet 损失
本文介绍了 FD-loss,一种通过将总体规模与批次规模解耦,从而将 Fréchet 距离作为视觉生成的训练目标进行优化的方法。研究证明该方法能提高生成器的质量,并指出 FID 可能无法始终准确反映视觉质量。
MIND:用于生成模型评估的 Monge 初始距离
本文介绍了 MIND(Monge 初始距离),这是一种用于评估生成模型的新指标,比标准的 Fréchet 初始距离(FID)具有更高的样本效率、更快的速度以及更强的鲁棒性。
改进的一致性模型训练技术
OpenAI 展示了改进的一致性模型训练技术,无需蒸馏即可实现高质量单步图像生成,通过新型损失函数和训练策略在 CIFAR-10 和 ImageNet 64×64 上取得显著的 FID 改进。
基于解码器的生成模型的定量分析
本文提出使用退火重要性采样(Annealed Importance Sampling)来评估基于解码器的生成模型(VAE、GAN等)的对数似然,解决了难以计算似然估计的问题。作者验证了该方法的有效性,并提供了评估代码来分析模型性能、过拟合情况和模式覆盖度。
微缺陷暴露宏观伪造:通过局部分布变化检测AI生成图像
一种局部分布感知的检测框架,通过放大微观尺度上的统计异常来识别AI生成图像,具有更高的准确率,在多个基准测试中优于基线检测器。