标签
提出一个GRPO训练动力学的闭式降阶模型,将其简化为阻尼振荡器,并推导出关于稳定性、组大小不变性和损失曲率的预测。在多个模型和基准上进行了验证。
本文提出了一个token级别的框架,表明语言模型损失中的幂律缩放来源于单个token的S形学习曲线的聚合,并证明根据token学习时间重塑训练分布可以将验证损失降低11%。
本文提出了微调回归的引力解释:早期训练形成了占主导地位的行为流形,后续的对齐只轻微地偏移它,从而产生了一个持久的回归方向。实验表明,阻止该方向能以极小的任务成本降低有害性。
本文研究了软件缺陷预测中神经网络的训练动态如何受到类不平衡和类重叠等耦合数据质量问题的影响,并提出了一种交互感知的实证协议。
论文指出重复不匹配是数据混合实验无法扩展的主要原因,并提出了一种重复控制子采样程序,使得小规模实验能够使用远少于原先的token数量恢复出接近最优的混合方案。
这篇立场论文认为,对AI的科学理解必须超越事后分析,转而研究塑造模型行为的训练动态,这对于预测、干预和设计训练过程以获取期望特性(如能力和安全性)具有重要意义。
本文刻画了大语言模型中同策略蒸馏(OPD)独特的参数空间动力学,表明其具有松弛的非主方向更新和子空间锁定特性,从而与监督微调和基于可验证奖励的强化学习区分开来。
MIT研究人员表明,神经网络训练中的稳定边缘(EoS)不仅仅是一个全局优化现象,而是选择性地在训练分布的子集上重新分配学习,放大某些数据组的进展同时抑制其他组。他们识别出控制这种分配的两个关键条件:梯度与Hessian矩阵最大特征向量的对齐,以及持续非消失的梯度幅度。
文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果,而非Bug,并提出了一个三行温度调度来预防它。
本文推导了两层和三层线性神经网络在一步和两步梯度下降后梯度和测试损失的精确闭式表达式,刻画了最优学习率选择,并揭示了一个独特的早期训练阶段:在该阶段中,初始时不等层学习率是最优的。
本文提供了神经网络在群组合任务中学习结构化表示的理论分析,证明了训练动态驱动神经元以指数收敛速度收敛到不可约群表示。该工作建立了特征学习的表示理论解释,并刻画了矩阵值群表示的低秩压缩现象。
本文引入了“初始化记忆”的概念,研究深度网络中随机初始化偏差在训练后保留了多少,表明低学习率的SGD能保留初始化,而Adam系列优化器则消除它,并将其与遗忘动力学联系起来。
本文提出了一种分布谱诊断方法,用于在测试准确率上升之前定位 Transformer 模型中的 Grokking 相变。该方法利用经验分布和汉克尔动态模态分解(Hankel DMD)创建监测信号,以区分发生 Grokking 和未发生 Grokking 的训练运行。