标签
本文为PL平滑目标在马尔可夫噪声下的随机梯度下降提供了最优高概率界,填补了期望保证与高概率保证之间的差距,并扩展到重尾设置,给出了匹配的下界。
这本书为深度神经网络建立了一套有效理论,表明其预测近似高斯分布,且由深度与宽度的比值主导;并引入了表示群流(representation group flow)来分析信号传播和学习动力学。
本文认为,当目标分布处于分布外时,基础条件扩散模型在组合生成方面根本失败,原因是分数估计误差,并且推理时的校正无法完全补偿。
本文对通用型智能体为了在多种环境和目标下接近最优地行动而必须在记忆中存储什么提供了一个形式化描述,并提出了一个分离定理:记忆对于领域区分和转移模型重建是必要的。
本文提供了理论解释,说明为什么扩散模型可以在没有显式噪声水平条件的情况下生成干净的样本,将其归因于高维几何,并分析为什么某些模型参数化成功而其他模型崩溃。
论文揭示了基于transformer的推理模型(TRMs)中的潜在推理实际上充当了策略改进算子,并提出了一种算法,将学习和推理效率提升高达18倍。
本文为指导在深度学习中合理使用不同的 Schatten-p 范数提供了指南,分析了它们在模型正则化和优化方面的理论特性和实际意义。
本文识别了一种故障模式,其中预测器在未识别的反事实耦合上坍缩为一点,并提出了一个使用正半定耦合核来约束反事实的框架,表明预测无法表示跨世界耦合的不确定性,且施加核约束可产生可处理的边界。
本文认为 Transformer 架构本质上是简洁的,意味着它们比其他模型能更高效地表示某些函数。本文提供了理论分析和证明。
本文运用体视学理论分析大语言模型基准,揭示当前排行榜仅测量3-5个独立维度,产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限,并提出一个用于高效基准选择的子模算法。
本文探讨了物理学在人工智能中的四层作用,从底层计算骨架到方法论层,认为物理学的方法论正从自然界迁移到AI领域。
本文提出了神经网络损失景观中曲率指数α的精确分解,解释了为何该指数在不同层类型间存在差异。引入了谱对齐分解,并导出了一个谱传递恒等式,连接曲率、梯度秩衰减和Hessian指数,该恒等式已在多种架构和数据集上得到验证。
本文推导了两层和三层线性神经网络在一步和两步梯度下降后梯度和测试损失的精确闭式表达式,刻画了最优学习率选择,并揭示了一个独特的早期训练阶段:在该阶段中,初始时不等层学习率是最优的。
本文探讨了为什么更大的模型性能优于较小的模型,通过形式化分析和实验将其归因于数据引发的神经资源竞争。
本文证明,对于具有隐藏结构的分层数据,通过预测潜在表示(如JEPA和data2vec等世界模型的做法)进行学习所需的数据量,远少于通过预测token(如LLMs的做法)进行学习,其差距呈指数级。
本文证明了DP-SGD近似最大信息的一个有限样本界,该界最多与数据集大小成线性关系,从而为差分隐私训练的模型带来了PAC-Bayes泛化界。