深度双下降

OpenAI Blog 论文

摘要

OpenAI研究揭示了“双下降”现象,即测试误差随着模型规模和训练步数的增加呈现出非单调的模式,挑战了传统上对深度学习偏差-方差权衡的理解。

我们展示了CNNs、ResNets和transformers中发生的双下降现象:性能首先提升,然后变差,接着随着模型规模、数据规模或训练时间的增加再次提升。这种效应通常通过仔细的正则化来避免。虽然这种行为似乎相当普遍,但我们尚未完全理解其发生的原因,并认为进一步研究这一现象是一个重要的研究方向。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:43

# 深度双重下降 来源:https://openai.com/index/deep-double-descent/ 上方的图表展示了测试误差和训练误差随模型规模与优化步数的变化。对于给定的优化步数(固定 y 坐标),测试误差和训练误差呈现出模型规模的双重下降。对于给定的模型规模(固定 x 坐标),随着训练的进行,测试误差和训练误差先下降、再上升、之后再次下降;我们将这种现象称为 epoch 级别的双重下降。 *通常,测试误差的峰值系统性地出现在模型刚刚能够拟合训练集的时候。* 我们的直觉是,对于处于插值阈值的模型,实际上只有一个模型能够拟合训练数据,而强迫它拟合即使带有轻微噪声或错误标注的标签,也会破坏其整体结构。也就是说,既能够插值训练集又在测试集上表现良好的“好模型”并不存在。然而,在过参数化区域,存在许多能够拟合训练集的模型,并且其中不乏这样的好模型。此外,随机梯度下降(SGD)的隐式偏差会引导它找到这些好模型,其原因我们尚不完全理解。 我们将全面理解深度神经网络中双重下降背后的机制视为一个重要的开放问题。

相似文章

AI 训练如何实现扩展

OpenAI Blog

# AI 训练如何实现扩展 来源:[https://openai.com/index/how-ai-training-scales/](https://openai.com/index/how-ai-training-scales/) 我们发现梯度噪声尺度(一个简单的统计指标)可以预测神经网络在广泛任务上的训练可并行性。由于复杂任务往往具有更高的梯度噪声,越来越大的批大小在未来可能会变得有用,从而消除了 AI 系统进一步增长的一个潜在瓶颈。更广泛地说,这些结果表明神经网络训练无需被视为神秘的艺术,而可以被严格化和系统化。

使用动作相关分解基线的策略梯度方差缩减

OpenAI Blog

# 使用动作相关分解基线的策略梯度方差缩减 来源: [https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/](https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/) OpenAI## 摘要 策略梯度方法在深度强化学习中取得了巨大成功,但梯度估计的方差很高。高方差问题特别

改进的一致性模型训练技术

OpenAI Blog

OpenAI 展示了改进的一致性模型训练技术,无需蒸馏即可实现高质量单步图像生成,通过新型损失函数和训练策略在 CIFAR-10 和 ImageNet 64×64 上取得显著的 FID 改进。

OpenAI Baselines: ACKTR & A2C

OpenAI Blog

OpenAI 发布 ACKTR 和 A2C 算法作为其 Baselines 库的一部分,其中 ACKTR 通过自然梯度下降展示了改进的样本复杂度,同时保持了与一阶方法相当的计算效率。

平坦最小值是幻觉吗?

arXiv cs.LG

本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点,认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明,弱性能够预测泛化,而尖锐性则与之负相关,且随着训练数据增加,大批次泛化优势消失。