theoretical-ai

#theoretical-ai

RT-Transformer：将 Transformer Block 视为球面状态估计器

arXiv cs.LG ↗ · 2026-05-13 缓存

本文提出了一种理论框架，解释 Transformer 组件（注意力机制、残差连接、归一化）如何源于使用径向-切线随机微分方程（Radial-Tangential SDEs）的球面状态估计问题。

0 人收藏 0 人点赞

#theoretical-ai

为何重试会失败：LLM 智能体流水线中的上下文污染

arXiv cs.AI ↗ · 2026-05-12 缓存

本文提出了上下文污染重启模型（Context-Contaminated Restart Model, CCRM），以形式化分析 LLM 智能体流水线中失败的尝试如何污染上下文并在重试期间增加错误率。文章提供了理论证明，并针对 SWE-bench 数据验证了该模型，结果显示其与标准独立模型存在显著差异。

0 人收藏 0 人点赞

#theoretical-ai

一个图灵完备神经网络的 PyTorch 库

arXiv cs.LG ↗ · 2026-05-12 缓存

一个 PyTorch 库，可根据图灵机描述编译神经网络，从而实现无需训练的精确模拟。

0 人收藏 0 人点赞

#theoretical-ai

特征排斥与谱锁定：两层网络 Grokking 现象的实证研究

arXiv cs.LG ↗ · 2026-05-12 缓存

这项实证研究验证了关于两层神经网络在 Grokking 现象期间的特征排斥和谱锁定理论发现，展示了激活函数如何影响从记忆到泛化的过渡。

0 人收藏 0 人点赞

#theoretical-ai

线性约束下的条件扩散：Langevin 混合与信息论保证

arXiv cs.LG ↗ · 2026-05-08 缓存

本文分析了预训练扩散模型在线性逆问题上的零样本条件采样，提供了信息论保证并提出了一种投影 Langevin 初始化方法。

0 人收藏 0 人点赞

theoretical-ai

RT-Transformer：将 Transformer Block 视为球面状态估计器

为何重试会失败：LLM 智能体流水线中的上下文污染

一个图灵完备神经网络的 PyTorch 库

特征排斥与谱锁定：两层网络 Grokking 现象的实证研究

线性约束下的条件扩散：Langevin 混合与信息论保证

提交意见反馈