标签
本文提出了一种理论框架,解释 Transformer 组件(注意力机制、残差连接、归一化)如何源于使用径向-切线随机微分方程(Radial-Tangential SDEs)的球面状态估计问题。
本文提出了上下文污染重启模型(Context-Contaminated Restart Model, CCRM),以形式化分析 LLM 智能体流水线中失败的尝试如何污染上下文并在重试期间增加错误率。文章提供了理论证明,并针对 SWE-bench 数据验证了该模型,结果显示其与标准独立模型存在显著差异。
这项实证研究验证了关于两层神经网络在 Grokking 现象期间的特征排斥和谱锁定理论发现,展示了激活函数如何影响从记忆到泛化的过渡。
本文分析了预训练扩散模型在线性逆问题上的零样本条件采样,提供了信息论保证并提出了一种投影 Langevin 初始化方法。