加法之形:大型语言模型中算术的几何结构
摘要
本文探究为何大型语言模型在执行基本的多操作数加法时失败,通过对残差流激活进行探针分析,揭示了名为“等原始和轨迹”(Iso-Raw-Sum Trajectories, IRSTs)的几何结构,并将“差一错误”解释为由潜在进位表征的噪声引起的几何滑动。
查看缓存全文
缓存时间: 2026/06/05 18:10
论文页面 - 加法的形状:大型语言模型中算术的几何结构
来源:https://huggingface.co/papers/2606.03645
我们提出了加法的形状,一项关于为什么LLMs仍会在基本的多操作数加法中失败的机制可解释性研究。
通过探测每个生成数字处的残差流激活,我们发现算术状态被组织成等原始和轨迹(IRSTs):连续原始和纤维穿过数字盆地,并进一步按进位状态分层。这种几何结构解释了常见的“差一”算术错误为几何滑移,其中噪声潜进位表示在离散令牌输出之前越过量化阈值。
我们进一步提出了一种噪声量化模型来描述这些失败,并通过双流一致性检查验证该框架,该检查可以在推理过程中检测并纠正一些量化错误。结果表明,即使最终令牌预测是错误的,LLMs可能在内部保留正确的算术组件。
相似文章
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
多模态LLM中的乘法:基于文本、图像和音频输入的计算
# 论文页面 - 多模态LLM中的乘法:基于文本、图像和音频输入的计算 来源:[https://huggingface.co/papers/2604.18203](https://huggingface.co/papers/2604.18203) ## 摘要 多模态大语言模型在不同的表示形式与模态下执行精确的多位数乘法时,均表现出一致的计算局限性;其性能与一种新颖的算术负载指标密切相关,该指标比传统的步骤计数方法更能预测准确性
一层解释所有:理解大型语言模型中的大规模激活现象
本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。
LLMs中特征特定错误纠正的证据
本文为大型语言模型中的特征特定错误纠正提供了首个实证证据,表明残差流激活对小扰动具有鲁棒性,但在候选特征方向上鲁棒性较弱,支持了叠加计算理论。
通过语言表征塑造图式:拓展LLM智能的下一前沿
本文指出,设计先进的语言表征以塑造认知图式,是在不扩展参数规模的前提下拓展LLM智能的关键前沿。文章提供了形式化定义与实证证据,表明不同的语言结构会显著影响模型性能与内部特征激活。