training-dynamics

#training-dynamics

预测性GRPO：训练动力学的闭式模型

arXiv cs.LG ↗ · 昨天缓存

提出一个GRPO训练动力学的闭式降阶模型，将其简化为阻尼振荡器，并推导出关于稳定性、组大小不变性和损失曲率的预测。在多个模型和基准上进行了验证。

0 人收藏 0 人点赞

#training-dynamics

@rosinality: https://arxiv.org/abs/2606.29858 为什么会出现幂律缩放？单个token的损失遵循S形曲线，……

X AI KOLs Timeline ↗ · 2天前缓存

本文提出了一个token级别的框架，表明语言模型损失中的幂律缩放来源于单个token的S形学习曲线的聚合，并证明根据token学习时间重塑训练分布可以将验证损失降低11%。

0 人收藏 0 人点赞

#training-dynamics

微调回归的引力解释

arXiv cs.LG ↗ · 2天前缓存

本文提出了微调回归的引力解释：早期训练形成了占主导地位的行为流形，后续的对齐只轻微地偏移它，从而产生了一个持久的回归方向。实验表明，阻止该方向能以极小的任务成本降低有害性。

0 人收藏 0 人点赞

#training-dynamics

神经软件缺陷预测模型在耦合数据质量问题下的训练动态

arXiv cs.LG ↗ · 2026-06-25 缓存

本文研究了软件缺陷预测中神经网络的训练动态如何受到类不平衡和类重叠等耦合数据质量问题的影响，并提出了一种交互感知的实证协议。

0 人收藏 0 人点赞

#training-dynamics

重复不匹配：为何数据混合实验无法扩展以及如何修复

arXiv cs.LG ↗ · 2026-06-09 缓存

论文指出重复不匹配是数据混合实验无法扩展的主要原因，并提出了一种重复控制子采样程序，使得小规模实验能够使用远少于原先的token数量恢复出接近最优的混合方案。

0 人收藏 0 人点赞

#training-dynamics

立场：不要只‘Fix it in Post’：AI科学必须研究训练动态

arXiv cs.AI ↗ · 2026-06-08 缓存

这篇立场论文认为，对AI的科学理解必须超越事后分析，转而研究塑造模型行为的训练动态，这对于预测、干预和设计训练过程以获取期望特性（如能力和安全性）具有重要意义。

0 人收藏 0 人点赞

#training-dynamics

论同策略蒸馏的几何结构

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

本文刻画了大语言模型中同策略蒸馏（OPD）独特的参数空间动力学，表明其具有松弛的非主方向更新和子空间锁定特性，从而与监督微调和基于可验证奖励的强化学习区分开来。

0 人收藏 0 人点赞

#training-dynamics

稳定边缘选择性塑造数据分布上的学习

arXiv cs.LG ↗ · 2026-06-04 缓存

MIT研究人员表明，神经网络训练中的稳定边缘（EoS）不仅仅是一个全局优化现象，而是选择性地在训练分布的子集上重新分配学习，放大某些数据组的进展同时抑制其他组。他们识别出控制这种分配的两个关键条件：梯度与Hessian矩阵最大特征向量的对齐，以及持续非消失的梯度幅度。

0 人收藏 0 人点赞

#training-dynamics

你的Transformer注意力熵坍缩不是Bug。模型只是在做你训练它做的事。以下是用三行温度调度修复它的方法。可投稿arXiv。自包含证明。无需引用。

Reddit r/ArtificialInteligence ↗ · 2026-06-02

文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果，而非Bug，并提出了一个三行温度调度来预防它。

0 人收藏 0 人点赞

#training-dynamics

跨层学习率平衡：线性神经网络中的精确两步动力学与最优缩放

arXiv cs.LG ↗ · 2026-06-02 缓存

本文推导了两层和三层线性神经网络在一步和两步梯度下降后梯度和测试损失的精确闭式表达式，刻画了最优学习率选择，并揭示了一个独特的早期训练阶段：在该阶段中，初始时不等层学习率是最优的。

0 人收藏 0 人点赞

#training-dynamics

神经网络可证明地学习群组合的谱表示

Hugging Face Daily Papers ↗ · 2026-06-02

本文提供了神经网络在群组合任务中学习结构化表示的理论分析，证明了训练动态驱动神经元以指数收敛速度收敛到不可约群表示。该工作建立了特征学习的表示理论解释，并刻画了矩阵值群表示的低秩压缩现象。

0 人收藏 0 人点赞

#training-dynamics

深度网络会遗忘初始化吗？实际归纳偏置的遗忘时间视角

arXiv cs.LG ↗ · 2026-05-29 缓存

本文引入了“初始化记忆”的概念，研究深度网络中随机初始化偏差在训练后保留了多少，表明低学习率的SGD能保留初始化，而Adam系列优化器则消除它，并将其与遗忘动力学联系起来。

0 人收藏 0 人点赞

#training-dynamics

用于定位 Grokking 相变的分布谱诊断方法

arXiv cs.LG ↗ · 2026-05-12 缓存

本文提出了一种分布谱诊断方法，用于在测试准确率上升之前定位 Transformer 模型中的 Grokking 相变。该方法利用经验分布和汉克尔动态模态分解（Hankel DMD）创建监测信号，以区分发生 Grokking 和未发生 Grokking 的训练运行。

0 人收藏 0 人点赞

training-dynamics

提交意见反馈