加法之形:大型语言模型中算术的几何结构

Hugging Face Daily Papers 论文

摘要

本文探究为何大型语言模型在执行基本的多操作数加法时失败,通过对残差流激活进行探针分析,揭示了名为“等原始和轨迹”(Iso-Raw-Sum Trajectories, IRSTs)的几何结构,并将“差一错误”解释为由潜在进位表征的噪声引起的几何滑动。

大型语言模型在基本算术中表现出矛盾的脆弱性,暗示其内部计算与离散输出之间存在脱节。通过分析多操作数加法过程中的残差流几何结构,我们识别出“等原始和轨迹”(Iso-Raw-Sum Trajectory, IRST),这是一种几何结构,其中表征由语义数字锚定并由连续进位纤维调制。我们提出噪声量化模型来解释这一几何结构,将算术错误归因于几何滑动——由内部神经噪声推动连续的潜在进位势穿过量化阈值所致。这一几何框架进一步阐明了探针的通用性,解释了轻量级探针如何从单一激活向量中分离出共存的潜在信号(如真实值与幻觉)。最后,我们通过一种几何一致性检查方法验证了这些见解,该方法可在推理过程中有效检测并纠正这些量化失败。我们的代码见 https://github.com/RL-MIND/Shape-of-Addition。
查看原文
查看缓存全文

缓存时间: 2026/06/05 18:10

论文页面 - 加法的形状:大型语言模型中算术的几何结构

来源:https://huggingface.co/papers/2606.03645

我们提出了加法的形状,一项关于为什么LLMs仍会在基本的多操作数加法中失败的机制可解释性研究。

通过探测每个生成数字处的残差流激活,我们发现算术状态被组织成等原始和轨迹(IRSTs):连续原始和纤维穿过数字盆地,并进一步按进位状态分层。这种几何结构解释了常见的“差一”算术错误为几何滑移,其中噪声潜进位表示在离散令牌输出之前越过量化阈值。

我们进一步提出了一种噪声量化模型来描述这些失败,并通过双流一致性检查验证该框架,该检查可以在推理过程中检测并纠正一些量化错误。结果表明,即使最终令牌预测是错误的,LLMs可能在内部保留正确的算术组件。

相似文章

多模态LLM中的乘法:基于文本、图像和音频输入的计算

Hugging Face Daily Papers

# 论文页面 - 多模态LLM中的乘法:基于文本、图像和音频输入的计算 来源:[https://huggingface.co/papers/2604.18203](https://huggingface.co/papers/2604.18203) ## 摘要 多模态大语言模型在不同的表示形式与模态下执行精确的多位数乘法时,均表现出一致的计算局限性;其性能与一种新颖的算术负载指标密切相关,该指标比传统的步骤计数方法更能预测准确性

LLMs中特征特定错误纠正的证据

arXiv cs.LG

本文为大型语言模型中的特征特定错误纠正提供了首个实证证据,表明残差流激活对小扰动具有鲁棒性,但在候选特征方向上鲁棒性较弱,支持了叠加计算理论。

通过语言表征塑造图式:拓展LLM智能的下一前沿

Hugging Face Daily Papers

本文指出,设计先进的语言表征以塑造认知图式,是在不扩展参数规模的前提下拓展LLM智能的关键前沿。文章提供了形式化定义与实证证据,表明不同的语言结构会显著影响模型性能与内部特征激活。