theory

#theory

马尔可夫噪声下的高概率PL-SGD：最优混合与尾部依赖

arXiv cs.LG ↗ · 昨天缓存

本文为PL平滑目标在马尔可夫噪声下的随机梯度下降提供了最优高概率界，填补了期望保证与高概率保证之间的差距，并扩展到重尾设置，给出了匹配的下界。

0 人收藏 0 人点赞

#theory

@k_solidified_: https://arxiv.org/abs/2106.10165 全人类都该读一读

X AI KOLs Timeline ↗ · 2天前缓存

这本书为深度神经网络建立了一套有效理论，表明其预测近似高斯分布，且由深度与宽度的比值主导；并引入了表示群流（representation group flow）来分析信号传播和学习动力学。

0 人收藏 0 人点赞

#theory

超参数化的谜之成功：彩票假说还是逃逸维度？

Hacker News Top ↗ · 2天前

一篇研究神经网络超参数化成功原因的论文，比较了彩票假说与逃逸维度。

0 人收藏 0 人点赞

#theory

灾难性组合生成：为什么基础扩散模型无法外推

arXiv cs.LG ↗ · 3天前缓存

本文认为，当目标分布处于分布外时，基础条件扩散模型在组合生成方面根本失败，原因是分数估计误差，并且推理时的校正无法完全补偿。

0 人收藏 0 人点赞

#theory

资本的知识理论：自然与人工智能的价值

arXiv cs.AI ↗ · 2026-06-18 缓存

本文提出了一种基于知识的资本理论，从经济学角度考察自然智能与人工智能的价值。

0 人收藏 0 人点赞

#theory

通用型智能体必须记住什么？

arXiv cs.AI ↗ · 2026-06-18 缓存

本文对通用型智能体为了在多种环境和目标下接近最优地行动而必须在记忆中存储什么提供了一个形式化描述，并提出了一个分离定理：记忆对于领域区分和转移模型重建是必要的。

0 人收藏 0 人点赞

#theory

@docmilanfar: 我非常喜欢我们最近关于"Geometry of Noise"的论文的解释性文章 arXiv:2602.18428

X AI KOLs Timeline ↗ · 2026-06-17 缓存

本文提供了理论解释，说明为什么扩散模型可以在没有显式噪声水平条件的情况下生成干净的样本，将其归因于高维几何，并分析为什么某些模型参数化成功而其他模型崩溃。

0 人收藏 0 人点赞

#theory

@machinestein: ICML 2026：TRMs中的潜在推理实际上是策略改进算子为什么递归推理，尤其是…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

论文揭示了基于transformer的推理模型（TRMs）中的潜在推理实际上充当了策略改进算子，并提出了一种算法，将学习和推理效率提升高达18倍。

0 人收藏 0 人点赞

#theory

在深度学习中何时使用何种 Schatten-$p$ 范数？

arXiv cs.LG ↗ · 2026-06-16 缓存

本文为指导在深度学习中合理使用不同的 Schatten-p 范数提供了指南，分析了它们在模型正则化和优化方面的理论特性和实际意义。

0 人收藏 0 人点赞

#theory

现代深度学习的不确定性估计与泛化界限

arXiv cs.LG ↗ · 2026-06-15 缓存

本文提出了现代深度学习模型不确定性估计与泛化的理论界限。

0 人收藏 0 人点赞

#theory

WorldKernel: 世界模型是可行可能世界的耦合核

arXiv cs.AI ↗ · 2026-06-10 缓存

本文识别了一种故障模式，其中预测器在未识别的反事实耦合上坍缩为一点，并提出了一个使用正半定耦合核来约束反事实的框架，表明预测无法表示跨世界耦合的不确定性，且施加核约束可产生可处理的边界。

0 人收藏 0 人点赞

#theory

Transformers 本质上是简洁的

Hacker News Top ↗ · 2026-06-05 缓存

本文认为 Transformer 架构本质上是简洁的，意味着它们比其他模型能更高效地表示某些函数。本文提供了理论分析和证明。

0 人收藏 0 人点赞

#theory

评估盲点：大语言模型基准覆盖的体视学理论

arXiv cs.LG ↗ · 2026-06-05 缓存

本文运用体视学理论分析大语言模型基准，揭示当前排行榜仅测量3-5个独立维度，产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限，并提出一个用于高效基准选择的子模算法。

0 人收藏 0 人点赞

#theory

@snowboat84: 这是《当物理遇上AI系列》的下篇。物理在AI中的作用，主要可以分为以下四层：（1）第一层为最底层，贡献了计算的骨架，能量、熵、自由能这些嵌进了AI的训练目标里。（2）第二层为中层，物理塑造了网络的形状，Hopfield的Ising能量函数…

X AI KOLs Timeline ↗ · 2026-06-05 缓存

本文探讨了物理学在人工智能中的四层作用，从底层计算骨架到方法论层，认为物理学的方法论正从自然界迁移到AI领域。

0 人收藏 0 人点赞

#theory

神经网络损失景观的谱渐近：曲率指数的精确分解

arXiv cs.LG ↗ · 2026-06-03 缓存

本文提出了神经网络损失景观中曲率指数α的精确分解，解释了为何该指数在不同层类型间存在差异。引入了谱对齐分解，并导出了一个谱传递恒等式，连接曲率、梯度秩衰减和Hessian指数，该恒等式已在多种架构和数据集上得到验证。

0 人收藏 0 人点赞

#theory

跨层学习率平衡：线性神经网络中的精确两步动力学与最优缩放

arXiv cs.LG ↗ · 2026-06-02 缓存

本文推导了两层和三层线性神经网络在一步和两步梯度下降后梯度和测试损失的精确闭式表达式，刻画了最优学习率选择，并揭示了一个独特的早期训练阶段：在该阶段中，初始时不等层学习率是最优的。

0 人收藏 0 人点赞

#theory

@ChrisGPotts：我们理所当然地认为更大的模型比小的更好，但为什么会这样？我们的新论文，由Jing Hua领导……

X AI KOLs Following ↗ · 2026-06-01 缓存

本文探讨了为什么更大的模型性能优于较小的模型，通过形式化分析和实验将其归因于数据引发的神经资源竞争。

0 人收藏 0 人点赞

#theory

@MatthieuWyart: LLMs通过预测token来学习。世界模型（JEPA、data2vec）通过预测自身的抽象表示来学习。哪种需要更多数据？

X AI KOLs Timeline ↗ · 2026-06-01 缓存

本文证明，对于具有隐藏结构的分层数据，通过预测潜在表示（如JEPA和data2vec等世界模型的做法）进行学习所需的数据量，远少于通过预测token（如LLMs的做法）进行学习，其差距呈指数级。

0 人收藏 0 人点赞

#theory

深度学习的哈密顿-雅可比理论

arXiv cs.LG ↗ · 2026-05-29 缓存

本文建立了神经网络训练与哈密顿-雅可比初值问题之间的精确对应关系，通过一个形变参数统一了深度学习架构。

0 人收藏 0 人点赞

#theory

从隐私到泛化：DP-SGD的线性最大信息界

arXiv cs.LG ↗ · 2026-05-27 缓存

本文证明了DP-SGD近似最大信息的一个有限样本界，该界最多与数据集大小成线性关系，从而为差分隐私训练的模型带来了PAC-Bayes泛化界。

0 人收藏 0 人点赞

theory

提交意见反馈