Vernier: 探究因果推理中词汇缺口背后的表征错位
摘要
本文探究了为何指令调优的语言模型在将变量名替换为占位符后,对因果推理问题给出不同答案,发现问题源于表征错位而非信息丢失。作者引入了Vernier方法,通过配对视图权重更新和机制检查,揭示出答案相关内容在占位符视图中仍然存在但错位。
arXiv:2606.15733v1 公告类型:新
摘要:指令调优的语言模型在将其英文变量名替换为类型保留的占位符后,可能对相同的因果推理问题给出不同答案,尽管结构因果模型和正确答案未变。我们探究这种词汇缺口是否反映了占位符视图中的信息丢失,或是从仍携带答案相关内容的表征中读取时出现错位。Vernier使用配对视图权重更新作为工具,并在缺口闭合后检查剩余机制。在正常工作状态下,证据支持表征错位。变量名探针在占位符视图上变得更加准确,而在Qwen-7B、Qwen-14B和Llama-3.1-8B上的激活修补显示,决策令牌表征可以在视图间传递答案身份。重新对齐视图的更新是对原始提示和占位符提示的反事实增强,而答案子空间KL主要增强了中间答案信念的一致性。成功程度受限于模型家族、规模和任务。CRASS迁移在Qwen各规模及Llama上可靠,e-CARE仍然较弱,初步的非因果重命名任务显示出类似的定性模式。
查看缓存全文
缓存时间: 2026/06/16 11:51
# Vernier: 探针因果推理中词汇差距背后的表征错位 来源:https://arxiv.org/html/2606.15733 Zhenyu Yu 计算机科学与人工智能学院 复旦大学 yuzhenyuyxl@foxmail\.com ###### 摘要 经过指令微调的语言模型在回答同一因果推理问题时,如果将其英文变量名替换为类型保留的占位符,可能会给出不同答案,尽管结构因果模型和正确答案保持不变。我们探讨这一词汇差距究竟反映的是占位符视图下的信息丢失,还是从仍然携带答案相关内容的表征中读取时发生了错位。Vernier 使用配对视图的权重更新作为工具,然后检查差距闭合后留下的机制。在工作状态下,证据倾向于表征错位解释:变量名探针在占位符视图上变得更为准确,对 Qwen-7B、Qwen-14B 和 Llama-3.1-8B 的激活修补表明,决策token表征能够在视图之间传递答案身份。使视图重新对齐的更新是对原始提示和占位符提示进行反事实增强,而答案子空间KL主要增强了中间答案信念的一致性。成功程度受模型家族、规模和任务限制。CRASS 转移可靠地跨 Qwen 规模和 Llama 进行,e-CARE 仍然较弱,初步的非因果重命名任务显示出类似的定性模式。 ## 1 引言 经过指令微调的语言模型在变量名发生变化时,可能对同一因果推理问题给出不同答案。将诸如 *smoking*、*husband*、*alarm clock* 等表面形式替换为类型占位符 \(X_1, X_2, X_3\),即便结构因果模型、联合分布、查询和正确答案都保持不变,也会产生不同的答案分布。Yu 和 Zhou (2026 (https://arxiv.org/html/2606.15733#bib.bib1)) 报告了这种跨模型家族的词汇差距,并发现直接提示、思维链提示和支架提示都无法消除这种现象。相关的 2025–2026 年评估报告也指出,在因果或数学推理场景中,存在类似的在保留含义的重写、上下文转移和反语义控制下的脆弱性 (Hao et al., 2025 (https://arxiv.org/html/2606.15733#bib.bib3); Lee et al., 2025 (https://arxiv.org/html/2606.15733#bib.bib4); Wang et al., 2026 (https://arxiv.org/html/2606.15733#bib.bib40); Li et al., 2026 (https://arxiv.org/html/2606.15733#bib.bib41))。因此,失败并非仅仅意味着模型需要更好的提示。科学问题是,词汇差距究竟属于哪种失败。 一种可能性是信息不足:移除了名称后,占位符视图不再包含回答问题所需的故事级内容。另一种是表征错位:内容仍然存在,但微调后的模型从这两种词汇形式读取信息的方式不同。这一区别反映了一类关于语言模型中虚假信号依赖和提示敏感性的更广泛研究 (McCoy et al., 2019 (https://arxiv.org/html/2606.15733#bib.bib18); Webson and Pavlick, 2022 (https://arxiv.org/html/2606.15733#bib.bib19); Sclar et al., 2024 (https://arxiv.org/html/2606.15733#bib.bib20))。这些解释之所以重要,是因为它们暗示了不同的修复方法。如果占位符视图丢失了信息,那么一次成功的更新可能仅仅教会模型忽略或覆盖缺失的内容。如果视图是错位的,那么一次成功的更新应该使得从两种形式都可以更容易地访问相同的条目级内容。 我们通过使用一次有针对性的权重更新作为工具来研究这个问题。该更新并非作为新的通用微调方法提出,而是一种控制变量,用于询问当差距闭合时发生了什么变化。我们的方法 Vernier 训练一个 LoRA 适配器,使用配对的词汇视图 (Hu et al., 2022 (https://arxiv.org/html/2606.15733#bib.bib31))。两个视图都接收答案监督,并且一个答案子空间的对称KL项鼓励它们的答案分布达成一致,遵循了一致性训练的一般原理,同时改变了视图构建机制 (Xie et al., 2020 (https://arxiv.org/html/2606.15733#bib.bib43); Liang et al., 2021 (https://arxiv.org/html/2606.15733#bib.bib23))。下面的消融实验表明,配对的词汇视图,而非通用的一致性,是行为闭合的主要来源。KL项用于使答案信念的对齐显式且可测量。最近的基准研究也支持这种设计,表明仅靠提示侧变化并不总能带来稳定的推理行为 (Sclar et al., 2024 (https://arxiv.org/html/2606.15733#bib.bib20); Chi et al., 2024 (https://arxiv.org/html/2606.15733#bib.bib2))。答案子空间限制与评估指标相匹配,后者仅依赖于较小的答案集合,而非整个词汇表。 论文其余部分围绕对上述竞争性解释的证伪检验展开。如果闭合移除了信息,那么故事级词汇内容应该变得从扰动视图中更难恢复。如果通用一致性就足够,那么不使用词汇扰动而只使用dropout一致性应该有所帮助。如果两个视图相差一个全局方向,那么从配对隐藏状态拟合一次映射就应该能在推理时闭合差距。如果更新仅仅损害了能力,那么下游评估应该会揭示这一点。因此,我们将行为评估与探针和logit镜头诊断 (Belrose et al., 2023 (https://arxiv.org/html/2606.15733#bib.bib28))、激活修补 (Zhang and Nanda, 2024 (https://arxiv.org/html/2606.15733#bib.bib5))、引导测试 (Turner et al., 2023 (https://arxiv.org/html/2606.15733#bib.bib29); Zou et al., 2023 (https://arxiv.org/html/2606.15733#bib.bib30))、能力检查 (Hendrycks et al., 2021 (https://arxiv.org/html/2606.15733#bib.bib34)) 和模型家族压力测试结合起来。这种结构旨在识别更新修复了什么,而不仅仅是它是否提高了基准数值。 贡献。 - • 我们将一个词汇鲁棒性失败转化为一个可证伪的机制问题。论文通过配对视图训练、探针、logit镜头诊断、激活修补和推理时引导测试,将信息不足解释与表征错位解释分离开来。证据的组织方式使得每项诊断都能排除一个特定的较弱解释,而不仅仅是增加另一个基准数值。 - • 我们引入 Vernier 作为一个受控的重新对齐工具。Vernier 在原始视图和保留结构的扰动视图上进行训练,对两者施加答案监督,并施加答案子空间一致性惩罚。配对视图增强是行为引擎,而答案子空间KL提供了信念级对齐的诊断。该方法故意狭窄:它针对因果QA评估所使用的答案集合,并用于询问当词汇差距闭合时发生了什么变化。 - • 我们绘制了该效果的边界条件。实验涵盖多个模型家族、同一家族内的 Qwen 规模扫描、分布外因果基准、能力检查、占位符方案压力测试、非因果重命名任务以及失败的全局映射干预。这使我们能够说明更新在何处有效、何处失效、转移较弱或无法通过单一的推理时方向重现。 ## 2 相关工作 ### 2.1 词汇鲁棒性与LLMs中的因果推理 Yu 和 Zhou (2026 (https://arxiv.org/html/2606.15733#bib.bib1)) 引入了我们采用的保留结构的词汇扰动 \(T(\cdot)\),应用于 CLadder (Jin et al., 2023 (https://arxiv.org/html/2606.15733#bib.bib6))、CRASS (Frohberg and Binder, 2022 (https://arxiv.org/html/2606.15733#bib.bib7)) 和 e-CARE (Du et al., 2022 (https://arxiv.org/html/2606.15733#bib.bib9)):命名变量的内容词被替换为类型占位符,同时保持因果图、查询类型、答案集合和黄金答案不变。该扰动旨在揭示模型的因果答案是否依赖于语义丰富的表面名称,而非结构性的因果查询。这种表面依赖性属于更广泛的鲁棒性模式的一部分。Chi et al. (2024 (https://arxiv.org/html/2606.15733#bib.bib2)) 认为当前LLMs主要执行浅层因果推理,而非真正的结构推断;Hao et al. (2025 (https://arxiv.org/html/2606.15733#bib.bib3)) 表明重命名变量会使数学推理降低数个百分点;Lee et al. (2025 (https://arxiv.org/html/2606.15733#bib.bib4)) 发现因果预测未能跟踪变化的背景。这些工作激发我们不仅问是否存在差距,还要问它反映了什么样的内部失败。对于因果QA案例,我们问差距是信息丢失还是表征错位,并通过机制方式而非仅测量来回答。 Pearl (2009 (https://arxiv.org/html/2606.15733#bib.bib10)); Pearl and Mackenzie (2018 (https://arxiv.org/html/2606.15733#bib.bib11)) 的结构因果模型框架形式化了三个基准所操作化的观察性、介入性和反事实查询。相邻工作表明,LLMs以与任务相关信号相互作用的方式利用表面特征。McCoy et al. (2019 (https://arxiv.org/html/2606.15733#bib.bib18)) 展示了NLI中的句法启发式依赖。Webson and Pavlick (2022 (https://arxiv.org/html/2606.15733#bib.bib19)) 表明基于提示的零样本模型可能忽略指令语义,同时对表面选择保持敏感。Sclar et al. (2024 (https://arxiv.org/html/2606.15733#bib.bib20)) 量化了对提示格式的敏感性。Min et al. (2022 (https://arxiv.org/html/2606.15733#bib.bib22)) 发现上下文演示中的标签正确性不如标签分布重要。思维链提示 (Wei et al., 2022b (https://arxiv.org/html/2606.15733#bib.bib12); Kojima et al., 2022 (https://arxiv.org/html/2606.15733#bib.bib13)) 和自一致性 (Wang et al., 2023 (https://arxiv.org/html/2606.15733#bib.bib14)) 是自然的提示侧干预。由于它们不修改模型从两种词汇视图读取的方式,它们激发了我们基于权重更新的方法,而非取代它。 ### 2.2 不变性、一致性训练和反事实增强 Vernier 属于将已知不变性构建到模型中的广泛方法家族。组等变网络 (Cohen and Welling, 2016 (https://arxiv.org/html/2606.15733#bib.bib42)) 将对称群的不变性硬编码到架构中,而一致性正则化的半监督学习 (Xie et al., 2020 (https://arxiv.org/html/2606.15733#bib.bib43)) 将已知的数据增强软化为惩罚项。Vernier 将 Yu 和 Zhou (2026 (https://arxiv.org/html/2606.15733#bib.bib1)) 的保留结构扰动 \(T\) 视为任务对称性,并将其违反作为对答案分布的软约束进行惩罚。该扰动通过构造是任务的真正不变性,这将其与增强仅近似保留标签的更常见情况区分开来。 在一致性训练内部,R-Drop (Liang et al., 2021 (https://arxiv.org/html/2606.15733#bib.bib23)) 在两个 dropout 采样过的同一输入前向传播之间添加对称 KL,SimCSE (Gao et al., 2021 (https://arxiv.org/html/2606.15733#bib.bib24)) 对比了两个 dropout 采样的句子视图,两者都将两个视图视为单个输入的随机副本。Vernier 在两个方向上不同。两个视图是由词汇编辑而非 dropout 采样产生的,这使得一致性目标成为数据分布的一个属性,而非网络内部噪声;并且KL限制在答案token子空间而非整个词汇表。第一个区别至关重要,因为 R-Drop 基线在没有 \(T\) 的情况下扩大了差距。Kaushik et al. (2020 (https://arxiv.org/html/2606.15733#bib.bib21)) 在人类重写的反事实对上训练分类器,以提高对虚假相关性的鲁棒性。我们的 \(\beta=0\) 消融是在没有KL项情况下的最接近类比,它闭合了大部分分布内差距,但仅闭合了部分分布外差距。 ### 2.3 隐藏表征的机械可解释性 我们的机制分析使用了类似 logit 镜头的诊断方法:中间隐藏状态通过解嵌入矩阵进行投影,并在答案token子空间上进行比较。调谐镜头变体 (Belrose et al., 2023 (https://arxiv.org/html/2606.15733#bib.bib28)) 为相关的潜在预测分析学习了一个小的逐层适配器。Elhage et al. (2021 (https://arxiv.org/html/2606.15733#bib.bib25)) 的变压器电路框架为逐层分析提供了概念性词汇。Meng et al. (2022 (https://arxiv.org/html/2606.15733#bib.bib26)) 定位到中层MLP模块的事实关联,Geva et al. (2023 (https://arxiv.org/html/2606.15733#bib.bib27)) 剖析了事实回忆的逐层动力学。我们的线性探针分析使用每层一个的多项式分类器,测试从隐藏状态中逐层恢复变量名家族的能力,这与这些前人工作的因果中介技术互补。 相关的一条工作线是通过向残差流添加单一方向来控制模型行为,如激活添加 (Turner et al., 2023 (https://arxiv.org/html/2606.15733#bib.bib29)) 和表征工程 (Zou et al., 2023 (https://arxiv.org/html/2606.15733#bib.bib30)) 引导情感、真实性、拒绝等属性。我们使用相同的构造作为测试,并发现因果推理中的词汇差距不允许存在这样的方向,与这些属性不同,而非因果变体则部分可引导。 通过人类反馈的强化学习 (Ouyang et al., 2022 (https://arxiv.org/html/2606.15733#bib.bib15)) 和多任务提示训练 (Sanh et al., 2022 (https://arxiv.org/html/2606.15733#bib.bib16); Wei et al., 2022a (https://arxiv.org/html/2606.15733#bib.bib17)) 进行的指令微调是我们所闭合的词汇敏感性的产生阶段。我们使用 LoRA (Hu et al., 2022 (https://arxiv.org/html/2606.15733#bib.bib31)) 进行参数高效微调,AdamW (Loshchilov and Hutter, 2019 (https://arxiv.org/html/2606.15733#bib.bib33)) 优化,以及 QLoRA (Dettmers et al., 2023 (https://arxiv.org/html/2606.15733#bib.bib32)) 用于14B及更大的模型。 请参阅说明图 图1: Vernier 训练示意图。原始提示 \(q\) 及其保留结构的扰动 \(T(q)\) 都通过相同的 LoRA 适应模型进行前向传播。损失组合了每个视图的答案监督和一个答案子空间对称KL项。 ## 3 方法: Vernier 该方法包含三个部分 (见图1 (https://arxiv.org/html/2606.15733#S2.F1))。词汇扰动形式化为一个保留结构的变换,该变换应使答案分布保持不变。Vernier 随后在配对的词汇视图上进行训练,同时对两个视图施加任务损失,并在答案token子空间施加一致性损失。答案子空间损失又与可识别性约束相联系,包括将分布一致性转化为argmax一致性所需的边际条件。我们将该更新用作工具,而非整体论证:该方法旨在创建一个受控的前后对比,随后可以检查其隐藏状态后果。 ### 3.1 词汇扰动与间隙 一个因果QA项为 \((q, y^\star, M)\),其中 \(q\) 是提
相似文章
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。
多模态大语言模型内部视觉表征的因果探针
本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架,揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要,并揭示了当前多模态大语言模型在感知与推理之间的脱节。
无理解的趋同:语言模型表征一致但推理分歧
本文通过考察来自8个家族的16个语言模型在800个推理问题上的表现,探究了Platonic Representation Hypothesis。研究发现,虽然模型在内部表征上趋于一致,但在推理过程中,尤其是决策后阶段,它们出现分歧,而且共享的表征对预测的因果影响极小。
基于语义损失的微调方法以防止因果推理中的模型崩溃
本文指出了标准微调在因果推理任务中存在的“模型崩溃”问题,并提出了一种结合基于图的逻辑约束的语义损失函数来防止该现象。
指令层级失效之处:诊断与修复推理语言模型中的故障
本文引入了一个白盒诊断框架,将推理语言模型中的指令层级故障定位为识别、冲突解决和响应实现三个阶段。该框架评估了多个模型,并提出了两种无需训练的自我监控机制,可将违规率降低81%–99%。