FID 彩票:量化生成模型评估中的隐藏随机性

Hugging Face Daily Papers 论文

摘要

本文分析了不同训练种子和采样种子下FID分数的方差,揭示了图像生成评估中显著的可重复性问题。它提出了一种新的评估协议,包括误差带和每单元最优引导调整。

Fréchet Inception Distance (FID) 是图像生成领域事实上的仲裁者,然而大多数论文仅报告了使用单一采样种子的单个训练模型得出的单一数字。如果我们重新训练模型,或仅仅从模型中重新采样,这个数字的可重复性如何?在本文中,我们将FID视为训练种子和生成种子二维面板上的随机变量,并直接在数百个基于类别条件 ImageNet 256x256 训练的 SiT 网络上测量其方差。我们报告了令人惊讶的发现:(a) 使用相同配方但不同种子重新训练模型,其FID变化(在Inception特征空间中)比从固定网络中重新采样高出3.2倍。(b) 这种差距由三个因素驱动:随机初始化、数据顺序以及流匹配损失中的每步高斯噪声。(c) 增加计算量或模型大小几乎无法缩小变异范围,FID变异系数 (CoV) 保持在1-2%的区间内。(d) 每单元的无分类器引导调整可将变异范围减半,但会重新洗牌哪些种子效果最佳;幸运的训练种子使用少一半的计算资源即可达到与不幸种子相同的FID。基于这些发现,我们推荐一个新的FID评估协议:在每单元最优引导下进行评估,将任何低于经验测量值约1.3%变异系数的FID差距视为不确定,并报告多个训练种子的误差带,而不是单一的FID数字。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:27

论文页面 - FID抽奖:量化生成模型评估中的隐藏随机性

来源:https://huggingface.co/papers/2606.20536

摘要

针对不同训练和采样种子的FID方差分析揭示了图像生成评估中显著的可重复性问题:重新训练造成的波动远大于重新采样。因此建议采用包含误差棒和最优引导调优的更新评估协议。

Frechet Inception Distance(FID)是图像生成领域事实上的评判标准,然而大多数论文仅报告单一训练模型、单一采样种子得出的单一数值。如果我们重新训练模型,或仅从模型中重新采样,该数值的可重复性如何?本文将FID视为训练种子和生成种子二维平面上的随机变量,直接在数百个基于类别条件ImageNet 256x256训练的SiT网络上测量其方差。我们报告了以下令人惊讶的发现:(a) 使用相同的训练配方但更换种子重新训练模型,其在Inception特征空间中的FID波动幅度是从固定网络中重新采样波动的3.2倍。(b) 这一差距由三个因素驱动:随机初始化、数据排序以及流匹配损失的每步高斯噪声。(c) 增加计算量或模型规模几乎无法缩小差距,FID的变异系数(CoV)保持在1-2%的范围内。(d) 每个单元的免分类器引导调优可将差距减半,但会重新排序哪些种子效果最佳;幸运的训练种子达到相同FID所需的计算量比不幸的种子少达2倍。基于这些发现,我们推荐一种新的FID评估协议:在每单元最优引导下进行评估,将任何小于经验测量值约1.3% CoV的FID差距视为不确定,并报告多个训练种子的误差棒,而非单一的FID数值。

查看arXiv页面(https://arxiv.org/abs/2606.20536)查看PDF(https://arxiv.org/pdf/2606.20536)项目页面(https://kyutai.org/fid-lottery/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20536)

在您的智能体中获取本论文:

hf papers read 2606.20536

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2606.20536 可将其链接至此页面。

引用此论文的数据集0

没有数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2606.20536 可将其链接至此页面。

引用此论文的Spaces0

没有Space链接本论文

在Space README.md 中引用 arxiv.org/abs/2606.20536 可将其链接至此页面。

包含此论文的收藏集0

没有收藏集包含本论文

将本论文添加到收藏集(https://huggingface.co/new-collection)以将其链接至此页面。

相似文章

用于视觉生成的表示 Fréchet 损失

Papers with Code Trending

本文介绍了 FD-loss,一种通过将总体规模与批次规模解耦,从而将 Fréchet 距离作为视觉生成的训练目标进行优化的方法。研究证明该方法能提高生成器的质量,并指出 FID 可能无法始终准确反映视觉质量。

MIND:用于生成模型评估的 Monge 初始距离

arXiv cs.LG

本文介绍了 MIND(Monge 初始距离),这是一种用于评估生成模型的新指标,比标准的 Fréchet 初始距离(FID)具有更高的样本效率、更快的速度以及更强的鲁棒性。

改进的一致性模型训练技术

OpenAI Blog

OpenAI 展示了改进的一致性模型训练技术,无需蒸馏即可实现高质量单步图像生成,通过新型损失函数和训练策略在 CIFAR-10 和 ImageNet 64×64 上取得显著的 FID 改进。

基于解码器的生成模型的定量分析

OpenAI Blog

本文提出使用退火重要性采样(Annealed Importance Sampling)来评估基于解码器的生成模型(VAE、GAN等)的对数似然,解决了难以计算似然估计的问题。作者验证了该方法的有效性,并提供了评估代码来分析模型性能、过拟合情况和模式覆盖度。