多语言中数学推理的LLM参数:共享还是独立?
摘要
本文提出了一种跨语言的LLM数学推理机制分析,发现数学相关参数在不同语言之间存在部分重叠,主要集中于中间层。英语拥有最大规模的数学相关参数集,而低资源语言则拥有较小的参数集。
arXiv:2606.18453v1 公告类型:新
摘要:大型语言模型(LLM)在数学推理性能上表现出显著的跨语言差异,但目前尚不清楚这些差异是反映了语言特定的参数,还是一个因语言而表现不同的共享机制。我们提出了一种跨语言的LLM数学推理机制分析,使我们能够定位并比较支持跨语言数学推理的模型参数。我们发现提取的数学相关参数表现出部分跨语言重叠,最强重叠集中在中间模型层。我们进一步观察到,英语始终产生最大规模的数学相关参数集,而低资源语言则揭示出较小的相关参数集。这些结果表明,多语言LLM中的数学相关行为既不完全语言不变,也不完全语言特定,而是表现出部分跨语言参数重叠,并伴有系统的语言依赖性差异。
查看缓存全文
缓存时间: 2026/06/18 05:45
# 跨语言数学推理的大语言模型参数:共享还是独立? 来源:https://arxiv.org/html/2606.18453 Behzad Shomali¹,²† · Luisa Victor²† · Tim Selbach²† · Ali Hamza Bashir¹,³ · David Berghaus¹,³ · Joachim Koehler¹,³ · Mehdi Ali¹,³ · Markus Frey¹,²,³ ¹Lamarr Institute ²University of Bonn ³Fraunhofer IAIS †同等贡献 ###### 摘要 大语言模型(LLMs)在数学推理性能上表现出显著的跨语言差异,但尚不清楚这些差异是否源于语言特定的参数,还是存在一个共享的机制,只是在不同语言中呈现不同表现。我们提出了一种跨语言的LLM数学推理机制分析,能够定位并比较支持不同语言数学推理的模型参数。我们发现,提取的数学相关参数存在部分跨语言重叠,其中最强的重叠集中在中间层。我们还观察到,英语始终产生最多的数学相关参数,而资源较少的语言则显示出较小的相关参数集。这些结果表明,多语言LLM中与数学相关的行为既非完全语言不变,也非完全语言特定,而是表现出部分跨语言参数重叠,并伴随系统性的语言依赖差异。 ![[未标注图片]](https://arxiv.org/html/2606.18453v1/figures/github_logo.png) 代码:https://github.com/luisavictor/math-across-languages ![[未标注图片]](https://arxiv.org/html/2606.18453v1/figures/HF_logo.png) 翻译数据集:https://huggingface.co/math-across-languages \[ Path=./fonts/LiberationSerif/, Extension=.ttf, UprightFont=LiberationSerif-Regular, BoldFont=LiberationSerif-Bold, ItalicFont=LiberationSerif-Italic, BoldItalicFont=LiberationSerif-BoldItalic \] # 跨语言数学推理的大语言模型参数:共享还是独立? Behzad Shomali¹,²† · Luisa Victor²† · Tim Selbach²† · Ali Hamza Bashir¹,³ · David Berghaus¹,³ · Joachim Koehler¹,³ · Mehdi Ali¹,³ · Markus Frey¹,²,³ ¹Lamarr Institute ²University of Bonn ³Fraunhofer IAIS †同等贡献 ††通讯作者:[email protected] ## 1 引言 大语言模型(LLMs)在诸多任务上取得了显著成功,然而它们在多语言数学推理上的表现仍不均衡(Chen等人,2024 (https://arxiv.org/html/2606.18453#bib.bib9))。理解这些模型如何跨语言处理数学任务,对于构建鲁棒的多语言系统至关重要。现有关于LLM能力的研究大致可分为两类。第一类是机制性研究,将任务特定技能定位到模型的参数子集上。最近的方法利用前向传播统计量(Sun等人,2023 (https://arxiv.org/html/2606.18453#bib.bib8))。值得注意的是,Christ等人(2025 (https://arxiv.org/html/2606.18453#bib.bib6))提出了*MathNeurosurgery*,孤立出LLM中数学推理的关键参数。第二类是多语言推理研究,主要评估性能或表征属性。像MathOctopus(Chen等人,2024 (https://arxiv.org/html/2606.18453#bib.bib9))和UST数据集(Ko等人,2025 (https://arxiv.org/html/2606.18453#bib.bib10))等数据集和策略面向跨语言泛化,而Liu等人(2026 (https://arxiv.org/html/2606.18453#bib.bib23))则表明,以英语为中心的潜在通路可能主导多语言推理。然而,这些方法很少确认是否相同的参数支持跨语言的数学推理。 尽管取得了这些进展,仍然存在若干挑战。机制性分析大多局限于英语,留下了关于跨语言参数共享的未解问题。同样,侧重性能的多语言研究并未揭示推理的底层计算基础。这些空白阻碍了我们对数学推理是依赖一个通用的核心还是语言特定电路的理解。 为填补这一空白,我们研究了LLM中数学特定参数的定位与重叠。我们的贡献有三方面: - • **多语言数学电路的机制性定位**:我们开发了一个框架,用于识别和比较支持跨语言数学推理的模型参数。 - • **参数分配的语言依赖变异**:我们表明英语包含最大的数学特定参数集,而资源较少的语言则包含较少。 - • **通过权重干预进行功能验证**:我们证明数学推理作为这些定位参数的**集体属性**涌现。 ## 2 相关工作 #### LLM的机制性分析。 已有若干研究探索了LLM参数中任务特定能力的定位。基于梯度的归因技术可以识别对特定任务关键的参数(Panigrahi等人,2023 (https://arxiv.org/html/2606.18453#bib.bib7)),而前向传播统计量提供了一种计算高效的替代方案(Sun等人,2023 (https://arxiv.org/html/2606.18453#bib.bib8))。Christ等人(2025 (https://arxiv.org/html/2606.18453#bib.bib6))提出了*MathNeurosurgery*,通过比较数学和非数学数据集上的权重-激活乘积来孤立数学特定参数。然而,他们的分析主要聚焦于英语,并未考察跨语言的参数行为。 #### 多语言LLM。 关于多语言LLM的研究主要涉及数据集创建和评估。MathOctopus(Chen等人,2024 (https://arxiv.org/html/2606.18453#bib.bib9))和UST数据集(Ko等人,2025 (https://arxiv.org/html/2606.18453#bib.bib10))面向跨语言泛化,而其他研究表明多语言模型常常依赖以英语为中心的潜在通路(Liu等人,2026 (https://arxiv.org/html/2606.18453#bib.bib23))。这些分析通常评估性能或表征,而未触及底层的参数级机制。 #### 跨语言机制性研究。 最近的一些工作研究了翻译输入上的神经元激活模式,以识别共享的功能单元(Wang等人,2024 (https://arxiv.org/html/2606.18453#bib.bib33))。我们的研究不同之处在于使用参数重要性框架,同时分析注意力层和前馈网络(FFN)权重,以定位数学特定电路并量化其跨语言重叠。 ## 3 方法 我们采用MathNeurosurgery框架(Christ等人,2025 (https://arxiv.org/html/2606.18453#bib.bib6))来识别数学特定参数,随后分析这些参数在整体模型以及各层之间的跨语言重叠。 ### 3.1 参数识别 沿用Christ等人(2025 (https://arxiv.org/html/2606.18453#bib.bib6))的方法,我们首先计算针对神经元i中权重j的任务特定得分Sij: \[ S_{ij} = \sum_{k=1}^{N} \left| W_{ij} \right| \cdot \left\| X_{j}^{k} \right\|_2 \quad \text{其中 } X \in \mathcal{D} \tag{1} \] 这里Wij表示权重,\|.\|表示绝对值算子,\|X_{j}^{k}\|_2是第j个特征在输入 token 上聚合后的L2范数,用于将来自数据集\(\mathcal{D}\)的样本k的输入X进行归一化。 利用这一公式,我们分别计算数学数据集(\(\mathcal{D}_{\text{math}}\))和非数学数据集(\(\mathcal{D}_{\text{non-math}}\))上每个参数的得分。然后,我们在每一层中分别识别每个任务中得分最高的前k比例参数。最后,我们通过取那些对数学任务关键但对无关任务不关键的参数子集,来识别数学特定参数。 ### 3.2 相似度度量 为衡量两组提取参数之间的相似性,我们首先对每种语言独立运行上一步骤,然后使用Jaccard系数计算它们的成对重叠。设T₁和T₂分别表示两种语言中同一任务的特定参数集。两个参数集之间的重叠计算如下: \[ J(T_1, T_2) = \frac{|T_1 \cap T_2|}{|T_1 \cup T_2|} \tag{2} \] ## 4 结果 我们首先介绍实验设置,然后分析结果。 ### 4.1 实验设置 我们评估了Llama 3.2 1B IT(Llama 1B)(Meta AI, 2024b (https://arxiv.org/html/2606.18453#bib.bib13))、Qwen3 4B IT-2507(Qwen3 4B)(Qwen Team, 2025 (https://arxiv.org/html/2606.18453#bib.bib15))和Llama 3.1 8B IT(Llama 8B)(Meta AI, 2024a (https://arxiv.org/html/2606.18453#bib.bib14))。这些模型在英语、德语、法语和印地语上,使用GSM8K(Cobbe等人,2021 (https://arxiv.org/html/2606.18453#bib.bib16))作为数学推理(\(\mathcal{D}_{\text{math}}\)),MMLU(Hendrycks等人,2020 (https://arxiv.org/html/2606.18453#bib.bib17))和RACE(Lai等人,2017 (https://arxiv.org/html/2606.18453#bib.bib18))作为通用语言理解数据集(\(\mathcal{D}_{\text{non-math}}\))。我们在正文中主要关注Llama 1B,更大模型的结果见附录。 ### 4.2 数学性能是否与模型对每种语言的能力相关? 图1(左)显示,对于每个top-k值,英语始终拥有最高的数学特定参数数量,其次是德语和法语,然后是印地语。这一模式与表1中观察到的跨语言推理性能一致。具体而言,数学特定参数数量的趋势与跨语言的相对性能排名一致。例如,在图1中,当top-k=0.01时,英语的参数数量最高,法语和德语数量大致相等,印地语最低。此外,印地语与法语之间的差距小于印地语与英语之间的差距。随着模型规模增大,这一模式更加显著(图F.4 (https://arxiv.org/html/2606.18453#A6.F4),图F.5 (https://arxiv.org/html/2606.18453#A6.F5))。 **发现:** 跨语言的数学特定参数分布倾向于与LLM中的相对推理性能一致。 表1:GSM8K和RACE在英语、德语、印地语和法语上的预训练准确率(%)。 图1:Llama 1B中的数学特定参数。左:每种语言孤立的参数数量。右:语言特定参数集之间的Jaccard相似度。 ### 4.3 数学推理是否存在共享的跨语言核心? 图1展示了Llama 1B中英语(En)、德语(De)、印地语(Hi)和法语(Fr)的数学相关参数数量,以及各语言对的Jaccard相似度。在所有语言对中,Jaccard相似度主要在中层达到峰值,并在深层下降。在更大模型中也能观察到相同的行为(图F.1 (https://arxiv.org/html/2606.18453#A6.F1)-F.3 (https://arxiv.org/html/2606.18453#A6.F3))。这一模式与之前的发现一致,即较早的层捕获更多表层语言特征,而后面的层可能变得更加专门化和语言依赖(Tang等人,2024 (https://arxiv.org/html/2606.18453#bib.bib30))。 图1和图2表明,英语无论是在整个模型中还是在几乎每一层中,始终拥有最多的数学相关参数。这意味着模型在英语中拥有一个更分布、更具鲁棒性的数学计算内部电路。值得注意的是,除了最初和最后几层外,所有语言对的Jaccard相似度都显著高于随机基线。这表明存在一个部分共享的参数基质,与数学问题求解相关,尤其是在中间层。在初始层和最终层中相似度较低,在更大模型(图F.2 (https://arxiv.org/html/2606.18453#A6.F2),图F.3 (https://arxiv.org/html/2606.18453#A6.F3))中尤其明显,这可能反映了两种不同的现象。在早期层,低重叠与前述的表层处理一致。在后期层,它则指向更强的语言特定专门化:随着参数预算增大,模型可以通过分配专用子网络进行语言特定推理,而不是依赖共享参数,从而缓解“多语言诅咒”(Conneau等人,2020 (https://arxiv.org/html/2606.18453#bib.bib31)),这与关于LLM层专门化的其他发现一致(Frey等人,2026 (https://arxiv.org/html/2606.18453#bib.bib34))。 虽然图1和图3确认了词汇相近的高资源语言(如法语和德语)表现出最高的重叠,但涉及印地语的对(尤其是En-Hi)观察到的较低相似度表明,文字和分词构成了结构性障碍。由于英语和印地语既没有共享字母表,也没有显著的词汇重叠,模型似乎依赖更不交叠的参数子集来将不同的输入编码映射到共享的内部表征。在Llama 8B中也观察到了这一模式,与模型规模无关(图F.3 (https://arxiv.org/html/2606.18453#A6.F3))。相比之下,在Qwen3 4B中这一效应不太显著(图F.2 (https://arxiv.org/html/2606.18453#A6.F2)),可能反映了多语言预训练覆盖范围、词汇设计或分词方式的差异。我们强调这一解释是推测性的,因为我们的实验并未孤立这些因素。 令人惊讶的是,在许多层中,De-Hi和Fr-Hi的重叠显著高于En-Hi。我们考虑两种可能的解释。首先,与英语和印地语相比,法语和印地语以及德语和印地语之间的参数数量相当,这解释了En-Hi较低的Jaccard得分。根据方程(2)计算相似度时,英语更大的数学相关参数集导致分母(并集)更大,从而降低了Jaccard相似度。其次,另一种解释是存在一个共享的非英语子空间:一个多语言推理流形,当模型在英语中心通路之外运行时,会利用这个流形。值得注意的是,En-Hi相似度低于De-Hi、Fr-Hi和De-Fr的模式几乎在所有层中持续存在,并扩展到更大模型(图F.2 (https://arxiv.org/html/2606.18453#A6.F2),图F.3 (https://arxiv.org/html/2606.18453#A6.F3))。这一一致且令人惊讶的观察结果进一步支持了以下假设:非英语语言可能依赖与英语所用不同的、部分重叠的参数子集。 **发现:** 存在一个部分共享的参数基质用于数学问题求解,这在中层最为突出。 图2:Llama 1B各语言数学推理参数的逐层分布。 图3:Llama 1B各语言对数学特定参数的逐层Jaccard相似度。 ### 4.4 权重缩放与剪枝如何改变模型行为? 为了验证并探究孤立参数的有效性,沿用Christ等人(2025)的方法,我们进行干预实验。
相似文章
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
mmPISA-bench:LLMs 在43种语言中的推理能力是否同样出色?
介绍 mmPISA-bench,一个源自PISA的紧凑型多语言推理基准,评估了专有LLMs在43种语言上的表现,发现它们能有效推理但存在一些性能差异,且机器翻译的问题不会降低准确率。
LLM神经解剖学第三部分 - LLMs似乎以几何而非语言思考
研究人员分析了LLMs在8种语言和多个模型中的内部表示,发现概念思考发生在transformer中间层的几何空间中,且与输入语言无关,这支持了类似于乔姆斯基理论的普遍深层结构假说,而非萨丕尔-沃尔夫语言相对论。
@haider1: Yann LeCun 表示,LLMs 在语言本身就是推理基础的领域(如数学和代码)中最强…
Yann LeCun 指出,LLMs 在语言作为推理基础的领域(如数学和代码)中最强,但它们并非有创造力的数学家、软件架构师或计算机科学家。
Cross-LLM推理一致性:来自共享交互的证据
本文利用基于交互的解释方法,研究了不同LLM在预测相同词元时是否共享共同的推理模式。结果表明,先进LLM展现出一致的交互模式,暗示它们隐式地优化到了共享的推理机制。