语言模型中锚定路径的定位

arXiv cs.CL 论文

摘要

本文研究提示中无关数字如何导致语言模型中的锚定效应,并利用基于归因的电路方法在Qwen和Llama模型上定位携带该信号的内部路径。

arXiv:2606.12818v1 公告类型:新 摘要:提示中的无关数字可能改变语言模型的判断,在数值推理中产生锚定效应。我们通过一个共享答案选项的受控多项选择设置,研究这种锚定敏感信号在语言模型内部的承载位置。我们定义了一个logit差异度量,比较正确选项与对应锚点的选项,并验证它能够追踪行为锚定。利用基于归因的电路定位方法,在7B-8B的Qwen和Llama基础模型及指令微调模型上,我们发现边缘级方法比节点级方法更忠实地恢复该信号。低锚点和高锚点电路在模型内部具有很强的可迁移性,表明锚定方向上存在共享的路径结构。然而,跨基础模型和指令微调变体的稀疏迁移可靠性较低,表明后训练改变了哪些路径最为重要。总体而言,我们的结果提供了关于锚定相关决策信号如何在语言模型内部传递的机制性解释。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:50

# 语言模型中锚定路径的定位

来源:https://arxiv.org/html/2606.12818
Hillary N\. Owusu, Sarah Wiegreffe, Naomi H\. Feldman
马里兰大学学院市分校
\{hnyowusu,sarahwie,nhf\}@umd\.edu

###### 摘要

提示中的无关数字可能会改变语言模型的判断,从而在数值推理中产生锚定效应。我们通过一种受控的多选题(共享答案选项)设置,研究这种对锚定敏感的信号在语言模型内部由何处携带。我们定义了一个对数几率差指标,用于比较正确答案选项与锚点对应的答案选项,并验证该指标能够追踪行为层面的锚定效应。通过在 7B–8B 的 Qwen 和 Llama 基座模型及指令微调模型上应用基于归因的电路定位,我们发现,边级别的方法比节点级别的方法更能忠实地恢复该信号。低锚点和高锚点电路在模型内部具有很强的可迁移性,表明不同锚定方向之间存在共享的通路结构。然而,在基座模型和指令微调变体之间的稀疏迁移可靠性较低,表明后训练阶段改变了哪些通路最为重要。总体而言,我们的研究结果提供了一种机制层面的解释,说明与锚定相关的决策信号如何在语言模型内部被携带。

语言模型中锚定路径的定位

Hillary N\. Owusu, Sarah Wiegreffe, Naomi H\. Feldman
马里兰大学学院市分校
\{hnyowusu,sarahwie,nhf\}@umd\.edu

## 1 引言

语言模型可能知道正确答案,但仍会因错误的上下文而发生偏移。在锚定效应中,一种人类和大语言模型(LLM)都表现出的认知偏差,一个无关的数字会改变后续的判断,使估计值偏向该无关数字 (Tversky and Kahneman, 1974 (https://arxiv.org/html/2606.12818#bib.bib4); Takenami et al., 2025 (https://arxiv.org/html/2606.12818#bib.bib9), 图 1 (https://arxiv.org/html/2606.12818#S1.F1))。对于大语言模型而言,这种现象暴露了一个决策层面的鲁棒性缺陷:无关的提示内容可能会改变模型在预测时对竞争性答案的排序方式。

提示变体

低锚点
老虎机停在 15。高锚点
老虎机停在 49。Token 匹配的 X 控制
老虎机停在 XXXX。问题:[老虎机行]
月球绕地球公转一圈的周期是多少天?
选择正确答案。请仅回复字母。
A) 15 B) 19 C) 23 D) 27 E) 31
F) 35 G) 39 H) 44 I) 49
答案:图 1:提示中给出的锚点(紫色显示)可能会改变后续问题(棕色显示)的语言模型预测。我们将 OpAQ 数据集 (Röseler et al., 2022 (https://arxiv.org/html/2606.12818#bib.bib15)) 中的问题转换为此处(简洁)所示的多选题格式,从而在行为层面和机制层面研究锚定偏差(真实答案 27 天,低锚点 15,高锚点 49)。

先前的研究已表明大语言模型存在锚定效应 (Lou and Sun, 2024 (https://arxiv.org/html/2606.12818#bib.bib8); Takenami et al., 2025 (https://arxiv.org/html/2606.12818#bib.bib9)),但大多将模型视为黑箱:添加锚点,预测发生偏移,然后测量偏移的大小。这种行为视角无法解释的是,一个无关数字究竟*如何*影响导致最终答案的内部计算过程。本文通过探究哪些内部通路支持正确答案与锚点对应答案之间对锚定敏感的竞争关系,来解决机制方面的问题。

机制可解释性提供了相关工具,用于确定模型内部哪些部分将某种行为从提示传递到输出 (Saphra and Wiegreffe, 2024 (https://arxiv.org/html/2606.12818#bib.bib29); Mueller et al., 2025a (https://arxiv.org/html/2606.12818#bib.bib30); Geiger et al., 2025 (https://arxiv.org/html/2606.12818#bib.bib32))。电路定位 (Olah et al., 2020 (https://arxiv.org/html/2606.12818#bib.bib33)) 能够隔离出大语言模型组件的一个最小子集,以忠实地复现完整大语言模型在推理时的行为。在电路定位中,模型被视为一个图:节点对应于内部组件,例如注意力头或多层感知机(MLP)块,而边则对应于信息在组件之间流动的路径。目标是识别哪些节点 (Wang et al., 2022 (https://arxiv.org/html/2606.12818#bib.bib21)) 或边 (Goldowsky-Dill et al., 2023 (https://arxiv.org/html/2606.12818#bib.bib40)) 对目标行为或指标贡献最大。

在本文中,我们将数值锚定问题框定为机制可解释性的一项课题。我们做出三项贡献。首先,我们将锚定转换为一个受控的多选题任务,并采用一个经过验证的答案层面指标,该指标衡量活跃锚点答案相对于正确答案的竞争力提升程度。其次,利用这个指标,我们证明锚定可以与可识别的内部通路相关联:边级别的定位比节点级别的定位更忠实,这表明该效应更适合通过组件之间的通路来理解,而非通过孤立的“有偏”组件。第三,我们测试了这些通路是否能在不同锚定方向和指令微调之间迁移。我们发现 Qwen 和 Llama 在不同层级的归因模式上有所差异,但在两个模型家族内部,低锚点和高锚点电路密切相关:它们排名靠前的边高度重叠,定位到几乎相同的层区域,并且在不同锚定对比间迁移良好。相比之下,指令微调保留了归因的整体层级位置,但改变了哪些稀疏边最为重要。

通过刻画这些通路,我们提供了一种机制层面的解释,说明经过验证的锚定敏感决策信号如何在语言模型内部被携带,以及相关通路在不同模型家族和指令微调之间如何变化。

## 2 相关工作

### 2.1 大语言模型中的锚定效应与认知偏差

锚定效应是一种经典的人类判断偏差,即接触一个任意的初始值会使随后的估计偏向该值 (Tversky and Kahneman, 1974 (https://arxiv.org/html/2606.12818#bib.bib4))。最近的研究表明,大语言模型(LLM)在数值估计、谈判和决策制定等任务中表现出类似锚定的效应 (Lou and Sun, 2024 (https://arxiv.org/html/2606.12818#bib.bib8); Takenami et al., 2025 (https://arxiv.org/html/2606.12818#bib.bib9); Valencia-Clavijo, 2025 (https://arxiv.org/html/2606.12818#bib.bib12); Huang et al., 2026 (https://arxiv.org/html/2606.12818#bib.bib11))。在数值估计方面,先前的行为研究进一步表明,锚定效应取决于置信度和后训练:当模型自信地犯错时,它能抵抗锚点;而低置信度的模型即使在正确答案时也仍然易受影响 (Owusu and Feldman, 2026 (https://arxiv.org/html/2606.12818#bib.bib28))。这一发现表明,锚定效应不仅是事实性知识的失败,更是一种鲁棒性缺陷,与模型偏好其当前答案分布的强烈程度有关。

最近的研究也已经开始探究锚定的机制。Valencia-Clavijo (2025 (https://arxiv.org/html/2606.12818#bib.bib12)) 使用结构化的提示字段归因来量化锚点字段如何影响模型的对数概率,而 Huang 等人 (2026 (https://arxiv.org/html/2606.12818#bib.bib11)) 使用激活补丁来证明锚定相关效应可能出现在相对较浅的层中。我们的工作在此基础上,从激活层面的干预转向电路定位:我们使用归因补丁来高效地对大量候选节点和边进行排序。这使我们能够评估忠实的子图,比较低锚点和高锚点电路,并询问深度定位是否在不同模型家族和指令微调变体之间保持稳定。

### 2.2 电路定位与机制可解释性

电路定位旨在识别支持目标行为的候选组件或通路。早期的因果方法依赖于激活补丁或相关干预 (Vig et al., 2020 (https://arxiv.org/html/2606.12818#bib.bib38); Meng et al., 2022 (https://arxiv.org/html/2606.12818#bib.bib22)),而最近的工作则使用可扩展的基于归因的近似方法。遵循 MIB,我们区分了节点级别和边级别的归因补丁方法:节点归因补丁(NAP)对单个组件进行评分,而边归因补丁(EAP)对组件之间的有向通路进行评分 (Nanda, 2023 (https://arxiv.org/html/2606.12818#bib.bib39); Kramár et al., 2024 (https://arxiv.org/html/2606.12818#bib.bib27); Syed et al., 2024 (https://arxiv.org/html/2606.12818#bib.bib19))。集成梯度变体 NAP-IG 和 EAP-IG 通过沿插值路径平均梯度(而非依赖单个局部梯度)来提高归因质量 (Hanna et al., 2024 (https://arxiv.org/html/2606.12818#bib.bib20))。

标准电路基准测试使用*忠实性*来评估这些方法:即局部子图能否在任务上恢复完整模型的行为 (Hanna et al., 2024 (https://arxiv.org/html/2606.12818#bib.bib20))。这些任务包括实体追踪任务,例如间接宾语识别、算术、多选题回答和科学推理 (Wang et al., 2022 (https://arxiv.org/html/2606.12818#bib.bib21); Stolfo et al., 2023 (https://arxiv.org/html/2606.12818#bib.bib23); Wiegreffe et al., 2025 (https://arxiv.org/html/2606.12818#bib.bib24); Mueller et al., 2025b (https://arxiv.org/html/2606.12818#bib.bib13))。在许多这些设置中,行为可以用一个自然的标量指标来概括,例如正确答案与反事实答案之间的对数几率差 (Zhang and Nanda, 2024 (https://arxiv.org/html/2606.12818#bib.bib35))。

锚定效应与这些设置不同,因为感兴趣的行为不仅仅是模型是否回答正确,而是是否有无关数字将概率拉向锚点答案。遵循先前强调电路评估依赖于所选指标的研究 (Mueller et al., 2025b (https://arxiv.org/html/2606.12818#bib.bib13)),我们为锚定效应明确地做出了这一选择。我们使用标准的对数几率差形式,比较正确答案与对应于活跃低锚点或高锚点的答案选项。然后,我们在将该指标用于基于归因的电路定位之前,验证了该指标能够追踪行为层面的锚定效应。

## 3 多选题锚定任务

### 3.1 任务设置

我们从开放锚定问答数据集(OpAQ; Röseler et al. 2022 (https://arxiv.org/html/2606.12818#bib.bib15))中选取了 100 个数值估计问题,将其改编为用于机制分析的控制多选题格式,遵循先前使用固定答案选项来研究模型在问答中行为的工作 (Clark et al., 2018 (https://arxiv.org/html/2606.12818#bib.bib25); Lieberum et al., 2023 (https://arxiv.org/html/2606.12818#bib.bib34); Wiegreffe et al., 2025 (https://arxiv.org/html/2606.12818#bib.bib24))。这种格式作为一种受控的机制探针:它测试了在固定的答案空间中是否会出现锚定效应,同时为电路定位提供了定义良好的单令牌答案标签对数几率。

每个任务项提供一个事实性问题、一个真实数值答案、一个低锚点和一个高锚点。对于每个任务项,我们构建一个包含九个选项的候选集,其中包含真实值、低锚点、高锚点以及跨越锚点范围的中间值。在锚定提示和控制提示中,使用相同的候选集。模型被指示仅以答案字母作答,因此每个候选值通过单个答案标签令牌进行评分,而不是通过开放式数值生成。

图 1 (https://arxiv.org/html/2606.12818#S1.F1) 显示了提示结构。对于每个任务项,我们通过预先添加一个包含相应锚点值的无关老虎机句子,来创建低锚点提示和高锚点提示。每个锚定提示都配有其各自基于分词器匹配的控制提示,其中数值锚点被替换为令牌长度匹配的非数字X字符串。因此,低锚点对比将低锚点提示与其匹配控制进行比较,高锚点对比将高锚点提示与其匹配控制进行比较。

由于多选题模型可能对答案字母和位置顺序敏感 (Pezeshkpour and Hruschka, 2024 (https://arxiv.org/html/2606.12818#bib.bib26)),我们在多种选项排序下评估每个任务项。行为分析对每个问题的 20 种随机选项排列求平均值,以减少字母和位置顺序带来的伪影。归因指标验证和电路定位对每个问题使用四种固定的循环轮换,以降低计算成本,从而每个锚点对比产生 400 个配对示例。我们还在附录 A (https://arxiv.org/html/2606.12818#A1) 中测试了对答案选项数量的敏感性。

我们使用来自 Qwen2.5 和 Llama-3.1 系列 (Yang et al., 2024 (https://arxiv.org/html/2606.12818#bib.bib41); Grattafiori et al., 2024 (https://arxiv.org/html/2606.12818#bib.bib42)) 的四个开源、权重开放的解码器专用语言模型。在每个模型家族内部,我们将基座模型与其指令微调版本进行比较,从而能够研究指令微调如何改变行为锚定和内部定位。对于 Qwen,我们评估 Qwen2.5-7B 和 Qwen2.5-7B-Instruct;对于 Llama,我们评估 Llama-3.1-8B 和 Llama-3.1-8B-Instruct。Qwen 模型有 28 个 Transformer 层,而 Llama 模型有 32 层,在比较定位深度时我们考虑了这一差异。所有模型均使用 Hugging Face 的 transformers 库 (Wolf et al., 2020 (https://arxiv.org/html/2606.12818#bib.bib18)) 在本地运行。为在表格和图表中简洁起见,我们分别将这些模型缩写为 Qwen-7B、Qwen-Inst、Llama-8B 和 Llama-Inst。

表 1:行为锚定和归因指标验证。条目为低 / 高。EV 偏移是相对于基于分词器匹配的控制;负的 EV 偏移表示向低锚点移动,正的 EV 偏移表示向高锚点移动。Δm 是锚定条件下的正确-锚点对数几率差减去控制条件下的差值;ρ_EV 将 -Δm 与一致性锚定 EV 偏移相关联。
### 3.2 行为指标与归因指标

在应用电路定位之前,我们使用行为指标来衡量锚定效应的强度和方向。对于每个任务项和条件,我们通过对答案标签令牌进行评分,计算模型在数值候选值上的概率分布,将标签概率映射回候选值,并在选项顺序排列上取平均。我们使用归一化的期望值(EV)偏移来总结锚点效应:锚定条件下减去控制条件下期望值的变化,再通过候选值范围进行归一化,因此负值表示向低锚点移动,正值表示向高锚点移动。我们还计算总变差距离(TVD),它衡量分布偏移的整体大小。完整的指标细节和额外的行为分析见附录 B (https://arxiv.org/html/2606.12818#A2)。

对于电路定位,我们需要一个单一的答案层面指标,其梯度可用于对内部节点或边进行评分。我们使用一个对数几率差,用于比较正确答案与对应于活跃锚点的答案选项。对于每个任务项和锚定方向,令 y_correct 为分配给真实值的选项标签,并令 y_

相似文章

使用探针目标归因定位大型语言模型中的提示模糊性

arXiv cs.CL

介绍了PRIG,一种梯度归因方法,通过训练线性探针区分清晰提示和模糊提示,并将探针得分归因于残差流中的标记表示,从而定位大型语言模型中的提示模糊性,在合成和人工编写的基准测试上取得了强劲性能。

将LLM性别偏见锚定于人类基线:一项跨语言审计

arXiv cs.CL

本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。

语言切换触发器在语言模型中的潜在绕行路径

Hugging Face Daily Papers

本文识别了在80亿参数语言模型中语言切换后门的底层电路,其中三个词的拉丁触发器通过注意力头和正交潜在子空间将英语输出重定向为法语,最后一层的MLP将潜在信号转换为法语logits。

大型语言模型中地理条件作用的意外影响

arXiv cs.CL

本文识别并分析了LLM中的“位置泄漏”现象,即地理条件作用导致模型即使在与位置无关的提示中也过度依赖位置元数据,揭示了超出内容的结构性条件作用效应。

架构而非规模:大语言模型中的电路局部化

arXiv cs.CL

本文挑战了“随着模型规模扩大,机制可解释性变得愈发困难”的假设,表明架构(特别是分组查询注意力与多头注意力之间的差异)对电路局部化和稳定性的影响比参数量更为关键。