超参数化的谜之成功:彩票假说还是逃逸维度?
摘要
一篇研究神经网络超参数化成功原因的论文,比较了彩票假说与逃逸维度。
暂无内容
相似文章
特征抽奖?概念涌现的分岔理论
本文提出了一种表征动力学的分岔理论,用于检测神经网络在训练过程中何时获得结构化表征。该理论利用对GMM探针的黑塞矩阵分析,得到的比值β/β_c作为一种无标签的相位坐标,能够预测可用结构的出现,并在训练早期预判稀疏自编码器中的特征可解释性。
通过参数噪声实现更好的探索
OpenAI 提出了参数噪声技术,该方法向神经网络策略参数添加自适应噪声,而不是向动作空间添加噪声,使得智能体能够比传统动作噪声方法快得多地学习任务。该方法在 HalfCheetah 上实现了 2 倍的学习速度提升,代表了进化策略与 TRPO、DDPG 等深度强化学习方法之间的平衡点。
@ChrisGPotts:我们理所当然地认为更大的模型比小的更好,但为什么会这样?我们的新论文,由Jing Hua领导……
本文探讨了为什么更大的模型性能优于较小的模型,通过形式化分析和实验将其归因于数据引发的神经资源竞争。
通过平滑激活缓解深度神经网络一致收敛中的维数灾难
本文建立了一个理论框架,表明深度神经网络中的平滑激活可以缓解一致收敛中的维数灾难,提供非渐近保证,并在最坏情况可靠性上优于ReLU网络。
通过进化程序性瓶颈解读神经组合优化
介绍进化程序性瓶颈(EPB),一种通过LLM驱动的进化将黑箱模型蒸馏为人类可读的程序组合以解读神经组合优化策略的框架。