加法之形：大型语言模型中算术的几何结构

Hugging Face Daily Papers 2026/05/29 00:00 论文

interpretability arithmetic llms mechanistic-interpretability geometry addition

摘要

本文探究为何大型语言模型在执行基本的多操作数加法时失败，通过对残差流激活进行探针分析，揭示了名为“等原始和轨迹”（Iso-Raw-Sum Trajectories, IRSTs）的几何结构，并将“差一错误”解释为由潜在进位表征的噪声引起的几何滑动。

大型语言模型在基本算术中表现出矛盾的脆弱性，暗示其内部计算与离散输出之间存在脱节。通过分析多操作数加法过程中的残差流几何结构，我们识别出“等原始和轨迹”（Iso-Raw-Sum Trajectory, IRST），这是一种几何结构，其中表征由语义数字锚定并由连续进位纤维调制。我们提出噪声量化模型来解释这一几何结构，将算术错误归因于几何滑动——由内部神经噪声推动连续的潜在进位势穿过量化阈值所致。这一几何框架进一步阐明了探针的通用性，解释了轻量级探针如何从单一激活向量中分离出共存的潜在信号（如真实值与幻觉）。最后，我们通过一种几何一致性检查方法验证了这些见解，该方法可在推理过程中有效检测并纠正这些量化失败。我们的代码见 https://github.com/RL-MIND/Shape-of-Addition。

查看原文

查看缓存全文

缓存时间: 2026/06/05 18:10

论文页面 - 加法的形状：大型语言模型中算术的几何结构

来源：https://huggingface.co/papers/2606.03645

我们提出了加法的形状，一项关于为什么LLMs仍会在基本的多操作数加法中失败的机制可解释性研究。

通过探测每个生成数字处的残差流激活，我们发现算术状态被组织成等原始和轨迹（IRSTs）：连续原始和纤维穿过数字盆地，并进一步按进位状态分层。这种几何结构解释了常见的“差一”算术错误为几何滑移，其中噪声潜进位表示在离散令牌输出之前越过量化阈值。

我们进一步提出了一种噪声量化模型来描述这些失败，并通过双流一致性检查验证该框架，该检查可以在推理过程中检测并纠正一些量化错误。结果表明，即使最终令牌预测是错误的，LLMs可能在内部保留正确的算术组件。

加法之形：大型语言模型中算术的几何结构

论文页面 - 加法的形状：大型语言模型中算术的几何结构

相似文章

揭示大语言模型中的数学推理：内部机制的方法学研究

多模态LLM中的乘法：基于文本、图像和音频输入的计算

一层解释所有：理解大型语言模型中的大规模激活现象

LLMs中特征特定错误纠正的证据

通过语言表征塑造图式：拓展LLM智能的下一前沿

提交意见反馈