标签
本文从理论上刻画了变压器中KV缓存压缩的极小极大风险,为因果掩码下的精确压缩提供了设计原则,并将其实例化到实用算法中,在LongBench上取得了有前景的结果。
提出一个GRPO训练动力学的闭式降阶模型,将其简化为阻尼振荡器,并推导出关于稳定性、组大小不变性和损失曲率的预测。在多个模型和基准上进行了验证。
本文从理论上分析了课程学习通过将复杂问题分解为更简单的子问题并组合解决方案,如何显著降低学习模拟顺序计算(半自动机)的样本复杂度——相较于直接方法,在监督微调中实现次多项式监督需求,并在可验证奖励的强化学习中实现指数级更弱的覆盖条件。
本文推导了在高斯潜变量模型下的草图线性对比学习的缩放定律,分析了风险如何分解为近似项、优化项和统计项,并为对比学习中平衡模型规模、数据和计算提供了理论指导。
本文对深度Transformer使用有界深度上下文无关文法建模层次结构的能力进行了理论分析,构建了显式的位置注意力Transformer,将文法状态编码到线性可分的子空间中。
本文扩展了经验发现:线性探针之间的马氏余弦相似度(MCS)线性预测了分布外AUROC,并在高斯假设下从理论上证明了这一关系。
本文证明,使用基于梯度的方法训练的两层神经网络能够实现学习高斯单指数模型的最优计算-统计权衡,对于所有生成指数,匹配SQ下界至多对数因子,并通过一种新颖的权重扰动技术扩展到稀疏设置。
本文引入了有限证书来验证语言模型上下文行为中的确定性与涌现性,提供了理论准则及对当代模型的实验验证。
本文建立了一个理论框架,表明深度神经网络中的平滑激活可以缓解一致收敛中的维数灾难,提供非渐近保证,并在最坏情况可靠性上优于ReLU网络。
本文研究了类别标签编码如何影响神经网络分类器中的神经坍缩,表明在独热编码和平衡数据下,随着偏置正则化增加,未中心化的均值特征从单纯形等角紧框架转变为正交框架。
这篇理论论文分析了填充Transformer的表达能力,表明与数值精度和模型深度相比,注意力类型、宽度和均匀性的影响很小。它建立了Transformer变体与电路复杂性类(如AC0和TC0)之间的等价关系,提供了稳健的特征描述。
本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。
本文在大规模语言模型预训练中发现了一种称为奇异性分布稳定性(SoSD)的谱现象,其中奇异值谱在早期就趋于稳定,而参数仍在持续演化。作者证明,这种稳定标志着训练进入慢速下降阶段,并分析了WSD和Muon等训练策略如何影响这一行为。
本文推导了在幂律谱下素描线性回归的批量缩放定律,分析了单次和多次遍历的小批量SGD。它提供了明确的风险分解,展示了批量大小如何影响偏差、方差和波动项,并证明了无放回采样比有放回采样产生更低的噪声。
本文从理论上刻画了神经过程(NP)架构的表征能力,证明了条件NP、注意力NP、卷积NP和Transformer NP之间存在严格的层级关系,并表明有限维潜变量不会将表征能力扩展到编码器之外。
本文形式化了LLM中的推理冗余,将其定义为在不影响正确性的情况下可截断的尾部步骤比例,在多个前沿模型上量化出61%-93%的冗余,并证明冗余是长度无关结果奖励的结构性后果。
本文开发了一个系统框架,用于建立处理可变维度输入(例如,具有不同节点数的图)的机器学习模型的普适性。论文表明许多现有架构不具有普适性,并提出了简单的修改来恢复普适性。
本文研究了“小规模与大规模差距”,即与使用更大的数据集相比,在更少的样本上进行更多次重复训练可以带来更快的学习和计算节省,并将加速归因于采样偏差所实现的逐层增长。研究结果表明,带有重复的小数据集可以被主动利用作为有利的归纳偏置,尤其是在推理任务中。
本文提出无损抗蒸馏采样(LADS),一种新颖的采样方案,通过关联不同账户的响应来对抗多账户蒸馏,同时为单个良性用户保留精确的统计保真度。理论分析和实验表明,LADS会降低蒸馏学生在图像、数学和代码生成上的性能。
本文分析了使用Glauber dynamics的掩码语言模型中迭代掩码标记重采样所引发的全局分布行为。引入了一种用于不相容性的矩形检验,建立了混合时间界限,并通过实验展示了相变和亚稳态语义盆地。