theoretical-analysis

标签

Cards List
#theoretical-analysis

KV缓存压缩的风险

arXiv cs.LG · 2天前 缓存

本文从理论上刻画了变压器中KV缓存压缩的极小极大风险,为因果掩码下的精确压缩提供了设计原则,并将其实例化到实用算法中,在LongBench上取得了有前景的结果。

0 人收藏 0 人点赞
#theoretical-analysis

预测性GRPO:训练动力学的闭式模型

arXiv cs.LG · 4天前 缓存

提出一个GRPO训练动力学的闭式降阶模型,将其简化为阻尼振荡器,并推导出关于稳定性、组大小不变性和损失曲率的预测。在多个模型和基准上进行了验证。

0 人收藏 0 人点赞
#theoretical-analysis

课程学习推理II:组合泛化

arXiv cs.LG · 6天前 缓存

本文从理论上分析了课程学习通过将复杂问题分解为更简单的子问题并组合解决方案,如何显著降低学习模拟顺序计算(半自动机)的样本复杂度——相较于直接方法,在监督微调中实现次多项式监督需求,并在可验证奖励的强化学习中实现指数级更弱的覆盖条件。

0 人收藏 0 人点赞
#theoretical-analysis

草图线性对比学习:近似、优化与统计缩放

arXiv cs.LG · 2026-06-26 缓存

本文推导了在高斯潜变量模型下的草图线性对比学习的缩放定律,分析了风险如何分解为近似项、优化项和统计项,并为对比学习中平衡模型规模、数据和计算提供了理论指导。

0 人收藏 0 人点赞
#theoretical-analysis

基于有界深度文法的深度Transformer层次建模表达性分析

arXiv cs.CL · 2026-06-17 缓存

本文对深度Transformer使用有界深度上下文无关文法建模层次结构的能力进行了理论分析,构建了显式的位置注意力Transformer,将文法状态编码到线性可分的子空间中。

0 人收藏 0 人点赞
#theoretical-analysis

比较线性探针与马氏余弦相似度

Hugging Face Daily Papers · 2026-06-17 缓存

本文扩展了经验发现:线性探针之间的马氏余弦相似度(MCS)线性预测了分布外AUROC,并在高斯假设下从理论上证明了这一关系。

0 人收藏 0 人点赞
#theoretical-analysis

神经网络能否实现最优计算-统计权衡?对单指数模型的分析

arXiv cs.LG · 2026-06-16 缓存

本文证明,使用基于梯度的方法训练的两层神经网络能够实现学习高斯单指数模型的最优计算-统计权衡,对于所有生成指数,匹配SQ下界至多对数因子,并通过一种新颖的权重扰动技术扩展到稀疏设置。

0 人收藏 0 人点赞
#theoretical-analysis

上下文确定性的有限证书与语言模型中涌现的阈值理论

arXiv cs.LG · 2026-06-09 缓存

本文引入了有限证书来验证语言模型上下文行为中的确定性与涌现性,提供了理论准则及对当代模型的实验验证。

0 人收藏 0 人点赞
#theoretical-analysis

通过平滑激活缓解深度神经网络一致收敛中的维数灾难

arXiv cs.LG · 2026-06-05 缓存

本文建立了一个理论框架,表明深度神经网络中的平滑激活可以缓解一致收敛中的维数灾难,提供非渐近保证,并在最坏情况可靠性上优于ReLU网络。

0 人收藏 0 人点赞
#theoretical-analysis

类别编码在神经坍缩中的作用

arXiv cs.LG · 2026-06-02 缓存

本文研究了类别标签编码如何影响神经网络分类器中的神经坍缩,表明在独热编码和平衡数据下,随着偏置正则化增加,未中心化的均值特征从单纯形等角紧框架转变为正交框架。

0 人收藏 0 人点赞
#theoretical-analysis

重新审视Padded Transformer的表达能力:哪些架构选择重要,哪些不重要

arXiv cs.LG · 2026-06-01 缓存

这篇理论论文分析了填充Transformer的表达能力,表明与数值精度和模型深度相比,注意力类型、宽度和均匀性的影响很小。它建立了Transformer变体与电路复杂性类(如AC0和TC0)之间的等价关系,提供了稳健的特征描述。

0 人收藏 0 人点赞
#theoretical-analysis

策略感知模拟器学习的理论基础与高效算法

arXiv cs.LG · 2026-05-29 缓存

本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。

0 人收藏 0 人点赞
#theoretical-analysis

奇异性分布的稳定性:语言模型预训练两阶段动力学的谱视角

arXiv cs.LG · 2026-05-27 缓存

本文在大规模语言模型预训练中发现了一种称为奇异性分布稳定性(SoSD)的谱现象,其中奇异值谱在早期就趋于稳定,而参数仍在持续演化。作者证明,这种稳定标志着训练进入慢速下降阶段,并分析了WSD和Muon等训练策略如何影响这一行为。

0 人收藏 0 人点赞
#theoretical-analysis

从单次SGD到数据复用:素描线性回归中的小批量缩放定律

arXiv cs.LG · 2026-05-26 缓存

本文推导了在幂律谱下素描线性回归的批量缩放定律,分析了单次和多次遍历的小批量SGD。它提供了明确的风险分解,展示了批量大小如何影响偏差、方差和波动项,并证明了无放回采样比有放回采样产生更低的噪声。

0 人收藏 0 人点赞
#theoretical-analysis

刻画神经过程的表征能力

arXiv cs.LG · 2026-05-26 缓存

本文从理论上刻画了神经过程(NP)架构的表征能力,证明了条件NP、注意力NP、卷积NP和Transformer NP之间存在严格的层级关系,并表明有限维潜变量不会将表征能力扩展到编码器之外。

0 人收藏 0 人点赞
#theoretical-analysis

多少思考才算够?量化与理解LLM推理中的冗余

arXiv cs.AI · 2026-05-26 缓存

本文形式化了LLM中的推理冗余,将其定义为在不影响正确性的情况下可截断的尾部步骤比例,在多个前沿模型上量化出61%-93%的冗余,并证明冗余是长度无关结果奖励的结构性后果。

0 人收藏 0 人点赞
#theoretical-analysis

任意维度不变普适性

arXiv cs.LG · 2026-05-25 缓存

本文开发了一个系统框架,用于建立处理可变维度输入(例如,具有不同节点数的图)的机器学习模型的普适性。论文表明许多现有架构不具有普适性,并提出了简单的修改来恢复普适性。

0 人收藏 0 人点赞
#theoretical-analysis

更少数据,更快训练:重复小数据集通过采样偏差加速学习

arXiv cs.LG · 2026-05-21 缓存

本文研究了“小规模与大规模差距”,即与使用更大的数据集相比,在更少的样本上进行更多次重复训练可以带来更快的学习和计算节省,并将加速归因于采样偏差所实现的逐层增长。研究结果表明,带有重复的小数据集可以被主动利用作为有利的归纳偏置,尤其是在推理任务中。

0 人收藏 0 人点赞
#theoretical-analysis

无损抗蒸馏采样

arXiv cs.LG · 2026-05-20

本文提出无损抗蒸馏采样(LADS),一种新颖的采样方案,通过关联不同账户的响应来对抗多账户蒸馏,同时为单个良性用户保留精确的统计保真度。理论分析和实验表明,LADS会降低蒸馏学生在图像、数学和代码生成上的性能。

0 人收藏 0 人点赞
#theoretical-analysis

掩码语言模型中Glauber Dynamics的混合时间

arXiv cs.LG · 2026-05-19 缓存

本文分析了使用Glauber dynamics的掩码语言模型中迭代掩码标记重采样所引发的全局分布行为。引入了一种用于不相容性的矩形检验,建立了混合时间界限,并通过实验展示了相变和亚稳态语义盆地。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈