深度双下降

OpenAI Blog 2019/12/05 08:00 论文

摘要

OpenAI研究揭示了“双下降”现象，即测试误差随着模型规模和训练步数的增加呈现出非单调的模式，挑战了传统上对深度学习偏差-方差权衡的理解。

我们展示了CNNs、ResNets和transformers中发生的双下降现象：性能首先提升，然后变差，接着随着模型规模、数据规模或训练时间的增加再次提升。这种效应通常通过仔细的正则化来避免。虽然这种行为似乎相当普遍，但我们尚未完全理解其发生的原因，并认为进一步研究这一现象是一个重要的研究方向。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:43

# 深度双重下降来源：https://openai.com/index/deep-double-descent/ 上方的图表展示了测试误差和训练误差随模型规模与优化步数的变化。对于给定的优化步数（固定 y 坐标），测试误差和训练误差呈现出模型规模的双重下降。对于给定的模型规模（固定 x 坐标），随着训练的进行，测试误差和训练误差先下降、再上升、之后再次下降；我们将这种现象称为 epoch 级别的双重下降。 *通常，测试误差的峰值系统性地出现在模型刚刚能够拟合训练集的时候。* 我们的直觉是，对于处于插值阈值的模型，实际上只有一个模型能够拟合训练数据，而强迫它拟合即使带有轻微噪声或错误标注的标签，也会破坏其整体结构。也就是说，既能够插值训练集又在测试集上表现良好的“好模型”并不存在。然而，在过参数化区域，存在许多能够拟合训练集的模型，并且其中不乏这样的好模型。此外，随机梯度下降（SGD）的隐式偏差会引导它找到这些好模型，其原因我们尚不完全理解。我们将全面理解深度神经网络中双重下降背后的机制视为一个重要的开放问题。

相似文章

AI 训练如何实现扩展

OpenAI Blog

# AI 训练如何实现扩展来源：[https://openai.com/index/how-ai-training-scales/](https://openai.com/index/how-ai-training-scales/) 我们发现梯度噪声尺度（一个简单的统计指标）可以预测神经网络在广泛任务上的训练可并行性。由于复杂任务往往具有更高的梯度噪声，越来越大的批大小在未来可能会变得有用，从而消除了 AI 系统进一步增长的一个潜在瓶颈。更广泛地说，这些结果表明神经网络训练无需被视为神秘的艺术，而可以被严格化和系统化。

使用动作相关分解基线的策略梯度方差缩减

OpenAI Blog

# 使用动作相关分解基线的策略梯度方差缩减来源: [https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/](https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/) OpenAI## 摘要策略梯度方法在深度强化学习中取得了巨大成功，但梯度估计的方差很高。高方差问题特别

深度双下降

相似文章

AI 训练如何实现扩展

使用动作相关分解基线的策略梯度方差缩减

改进的一致性模型训练技术

OpenAI Baselines: ACKTR & A2C

平坦最小值是幻觉吗？

提交意见反馈