不归点:语言模型推理中欺骗承诺的反事实定位

arXiv cs.CL 论文

摘要

引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。

arXiv:2605.17113v1 公告类型:新 摘要:现有的欺骗数据集将完成的输出标记为诚实或欺骗,将欺骗视为最终响应的属性,而非模型推理轨迹的函数。这掩盖了一个更根本的问题:语言模型何时对欺骗做出承诺?我们引入反事实定位方法:对于推理轨迹中的每个句子前缀,固定前缀,重新采样后续部分,并估计欺骗结果出现的概率。为了扩大规模,我们构建了五个环境(涵盖战略虚张声势、迷宫引导、财务建议、二手车销售和报价谈判),在这些环境中,欺骗从未被提示,而是从战略激励中涌现,标签根据环境状态机械地生成,而非主观的人类判断。由此产生的语料库包含了四个推理模型中约146万句子的定位信息,这些句子来自超过9410万次的采样后续、915亿生成的令牌以及超过10万个场景。句子级人工评估确认,检测到的承诺点对应于决策状态的可解释转变。利用这一资源,我们发现,用于承诺预测的词汇线索在不同环境中泛化较差,而基于注意力的转换特征则能够跨分布泛化,表明欺骗承诺反映在推理动态的可重用变化中,而非表面形式。我们进一步识别出紧凑的注意力头集合(少于10%的头),在某一环境中选定的这些头,在未见过环境中因果性地抑制了欺骗承诺。我们发布该语料库,作为研究语言模型推理中欺骗(更广泛而言,承诺)的基础资源。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:38

# 无法回头的时刻:语言模型推理中欺骗性承诺的反事实定位 来源:https://arxiv.org/html/2605.17113 Scott Merrill Shashank Srivastava 北卡罗来纳大学教堂山分校 \{smerrill, ssrivastava\}@cs\.unc\.edu ###### 摘要 现有欺骗数据集将完整输出标记为诚实或欺骗性,将欺骗视为最终响应的属性而非模型推理轨迹的函数。这掩盖了一个更根本的问题:语言模型何时开始对欺骗做出承诺?我们引入**反事实定位**:对于推理轨迹中的每个句子前缀,固定该前缀,重新采样后续内容,并估计欺骗结果的概率。为了扩展这一方法,我们构建了五个环境(涵盖策略性虚张声势、迷宫引导、财务建议、二手车销售和报价谈判),在这些环境中,欺骗从未被提示,而是从策略性激励中涌现,且标签根据环境状态机械性地得出,而非主观的人类判断。由此产生的语料库包含约 1.46M 个句子(跨四个推理模型),来自超过 9410 万次采样续写、915 亿个生成 token 以及超过 10 万个场景。句子级人工评估证实,检测到的承诺点对应可解释的决策状态转变。利用这一资源,我们表明,用于承诺预测的词汇线索在不同环境间迁移效果较差,而基于注意力的转换特征能够泛化到分布外数据,这表明欺骗性承诺体现在可复用的推理动态变化中,而非表面形式。我们进一步识别出紧凑的注意力头集合(少于 10% 的注意力头),这些注意力头在一个环境上被选中后,能够在多个保留环境中因果性地抑制欺骗性承诺。我们发布该语料库,作为研究语言模型推理中欺骗(更广泛地说,承诺)的基础资源。

## 1 引言

大型语言模型能够产生策略性误导回应(Scheurer 等,2024 (https://arxiv.org/html/2605.17113#bib.bib13);Hagendorff,2024 (https://arxiv.org/html/2605.17113#bib.bib21);Hubinger 等,2024 (https://arxiv.org/html/2605.17113#bib.bib12))。然而,大多数现有欺骗数据集将完整输出标记为诚实或欺骗性,将欺骗视为最终响应的属性(Ott 等,2011a (https://arxiv.org/html/2605.17113#bib.bib9);Kretschmar 等,2026 (https://arxiv.org/html/2605.17113#bib.bib10);Peskov 等,2020 (https://arxiv.org/html/2605.17113#bib.bib11))。这种框架掩盖了一个更根本的问题:语言模型在其推理轨迹中*何时*开始对欺骗做出承诺?它无法告诉我们哪些中间推理步骤会使欺骗变得可能,这些信号是否能在不同设置间迁移,或者哪些内部机制因果性地支持欺骗性承诺。我们认为,理解欺骗需要将其建模为部分推理的*动态函数*,而非完整输出的一个标签(Lightman 等,2023 (https://arxiv.org/html/2605.17113#bib.bib25))。部分生成的轨迹可能支持多种未来:一些续写保持诚实,而另一些则变得具有欺骗性。随着被固定的轨迹部分增多,欺骗概率可能逐渐或突然变化,揭示出*欺骗性承诺点*——模型在该点之后更有可能以欺骗方式完成轨迹。

为了研究这一过程,我们引入**反事实定位**:对于推理轨迹中的每个句子前缀,固定通过该前缀的轨迹,采样大量续写,并估计由此产生的欺骗率。一个句子之所以重要,不仅因为它出现在欺骗性轨迹中,更因为固定它改变了未来欺骗性续写的分布。我们将这种比率的显著变化称为*承诺节点*。

反事实定位得以扩展的关键在于内在监督。先前的欺骗数据集通常依赖人类编写、人类标注或人类验证的样本,而人类对于欺骗的判断已知是有噪声的(Ott 等,2011a (https://arxiv.org/html/2605.17113#bib.bib9);Bond Jr. 和 DePaulo,2006 (https://arxiv.org/html/2605.17113#bib.bib24))。我们转而构建了五个环境(专注于策略性虚张声势、迷宫引导、财务建议、二手车销售和报价谈判),在这些环境中,欺骗源自策略性激励,标签根据环境状态机械性地得出,而非主观的人类判断。在这些环境中,欺骗呈现出性质不同的形式,包括显式虚假声明、误导性引导、自利推荐、选择性隐瞒和谈判中的歪曲陈述。这些环境在动作空间、可观测性结构、激励和语言形式上也各不相同,为识别哪些承诺的局部信号能够跨环境迁移(而非反映环境特定的伪影)提供了严峻的测试平台(Geirhos 等,2020 (https://arxiv.org/html/2605.17113#bib.bib26);Koh 等,2020 (https://arxiv.org/html/2605.17113#bib.bib27))。

将反事实定位与内在监督相结合,我们构建了据我们所知规模最大的欺骗数据集(按 token 计数)。¹ ¹¹https://huggingface.co/datasets/anonymous-neurips-2026-ED/deception-localization 该语料库包含约 1.46M 个定位句子,覆盖 10 万个场景和四个推理模型,源于约 53 亿个采样续写句子、约 915 亿个生成 token 以及 2.22 TB 的轨迹和续写数据。句子级人工评估确认,检测到的承诺点对应可解释的决策状态转变。利用该语料库,我们使用词汇、激活和注意力特征训练预测器,并在留一环境外的迁移设置下进行评估。随后我们探究预测信号是否对应因果机制:利用归因修补(Syed 等,2024 (https://arxiv.org/html/2605.17113#bib.bib22);Vig 等,2020 (https://arxiv.org/html/2605.17113#bib.bib23)),我们识别出紧凑的注意力头回路,这些回路的句子级修补能够在领域内和跨保留环境中抑制欺骗性承诺。

我们的贡献如下:

1.  1. 我们将欺骗检测从二元输出分类重新定义为将欺骗建模为推理轨迹的*函数*,并引入**反事实定位**,通过采样续写估计句子级和前缀级欺骗率。
2.  2. 我们构建了五个具有**内在、机械性得出标签**的欺骗环境,其中欺骗从策略性激励中涌现,而非通过指令。生成的语料库包含 **1.46M** 个定位句子(跨四个推理模型)、约 **915 亿**个生成 token 和 **2.22 TB** 的轨迹及续写数据。据我们所知,这是规模最大的欺骗数据集,并经过句子级人工标注验证。
3.  3. 我们表明,词汇线索在不同环境间迁移效果较差,而**基于注意力的转换特征**能够泛化到分布外数据,这表明欺骗性承诺体现在可复用的推理动态变化中,而非稳定的表面模式。
4.  4. 在所有被评估的推理模型中,我们识别出一个**紧凑的注意力头回路**(少于 10% 的注意力头),其修补能够在**领域内**和**跨保留环境**中因果性地抑制欺骗性承诺,提供证据表明承诺信号不仅具有预测性,而且可以在机制上被操控。

## 2 相关工作

**语言模型中的欺骗检测。** 语言模型可能歪曲其情境、操纵和利用用户以达到目标(Hagendorff,2024 (https://arxiv.org/html/2605.17113#bib.bib21);OpenAI,2023 (https://arxiv.org/html/2605.17113#bib.bib32);FAIR 等,2022 (https://arxiv.org/html/2605.17113#bib.bib31))。先前的工作使用词汇、句法、神经和跨语料特征,针对意见垃圾信息、对话、游戏和 LLM 欺骗构建监督检测器(Mihalcea 和 Strapparava,2009 (https://arxiv.org/html/2605.17113#bib.bib1);Ott 等,2011b (https://arxiv.org/html/2605.17113#bib.bib2);Feng 等,2012 (https://arxiv.org/html/2605.17113#bib.bib3);Ren 和 Ji,2014 (https://arxiv.org/html/2605.17113#bib.bib4);Velutharambath 和 Klinger,2023 (https://arxiv.org/html/2605.17113#bib.bib6);Peskov 等,2020 (https://arxiv.org/html/2605.17113#bib.bib11);Kretschmar 等,2026 (https://arxiv.org/html/2605.17113#bib.bib10);Scheurer 等,2024 (https://arxiv.org/html/2605.17113#bib.bib13);Park 等,2024 (https://arxiv.org/html/2605.17113#bib.bib14)),或通过后续探针及指示诚实/欺骗对比来检测撒谎(Pacchiardi 等,2024 (https://arxiv.org/html/2605.17113#bib.bib15);Kretschmar 等,2026 (https://arxiv.org/html/2605.17113#bib.bib10))。这些方法存在两个共同限制:它们为完成的输出分配单一标签,往往基于构造的或噪声较大的人类判断样本(Ott 等,2011b (https://arxiv.org/html/2605.17113#bib.bib2);Pérez-Rosas 和 Mihalcea,2015 (https://arxiv.org/html/2605.17113#bib.bib5);Bond Jr. 和 DePaulo,2006 (https://arxiv.org/html/2605.17113#bib.bib24)),并且欺骗通常是*被提示*的。这一框架在领域迁移下性能下降(Panda 和 Levitan,2023 (https://arxiv.org/html/2605.17113#bib.bib7);Glenski 等,2020 (https://arxiv.org/html/2605.17113#bib.bib8);Velutharambath 和 Klinger,2023 (https://arxiv.org/html/2605.17113#bib.bib6)),部分原因是输出标签将推理压缩为单一轨迹,丢弃了欺骗之前的内部信号。我们转而设计环境,让欺骗从策略性激励中涌现,从而无需人工判断即可为来自同一前缀的反事实续写打标签,并测试信号是否能在环境间迁移(Geirhos 等,2020 (https://arxiv.org/html/2605.17113#bib.bib26);Koh 等,2020 (https://arxiv.org/html/2605.17113#bib.bib27))。

**推理的定位与干预。** 过程监督认为中间推理步骤可能比最终答案更具信息量(Lightman 等,2023 (https://arxiv.org/html/2605.17113#bib.bib25)),而最近的反事实采样工作识别出*思想锚点*——即对下游推理产生不成比例影响的句子(Bogdan 等,2025 (https://arxiv.org/html/2605.17113#bib.bib28))。另一条平行线索通过探针分析激活以检测真实性或欺骗性,发现存在分离真伪陈述的线性结构(Azaria 和 Mitchell,2023 (https://arxiv.org/html/2605.17113#bib.bib16);Marks 和 Tegmark,2024 (https://arxiv.org/html/2605.17113#bib.bib18);Goldowsky-Dill 等,2025 (https://arxiv.org/html/2605.17113#bib.bib17)),但这是从静态激活快照评估已完成的陈述。机械可解释性通过因果中介分析、激活和归因修补以及回路发现来探究因果角色(Vig 等,2020 (https://arxiv.org/html/2605.17113#bib.bib23);Syed 等,2024 (https://arxiv.org/html/2605.17113#bib.bib22);Conmy 等,2023 (https://arxiv.org/html/2605.17113#bib.bib20)),而表示工程则通过激活方向来引导概念(Zou 等,2023 (https://arxiv.org/html/2605.17113#bib.bib19));近期工作识别出用于逐字记忆(Lasy 等,2025 (https://arxiv.org/html/2605.17113#bib.bib29))和长文本行为(Sankaranarayanan 等,2026 (https://arxiv.org/html/2605.17113#bib.bib30))的回路。我们将反事实视角扩展到欺骗,探究*何时*续写分布转向欺骗,并将承诺节点作为因果目标,测试紧凑的注意力头回路能否抑制欺骗性承诺。

## 3 方法

我们的框架使用这样的环境:欺骗可以从底层状态内在识别,从而实现可扩展的监督。如图 1 (https://arxiv.org/html/2605.17113#S3.F1) 所示,框架包含两个阶段:**欺骗挖掘**和**反事实定位**。在欺骗挖掘中,我们从同一初始提示/状态中采样多条轨迹,并保留一条诚实和一条欺骗性轨迹。在反事实定位中,我们固定每个句子前缀,采样续写以估计欺骗结果的概率。在句子边界重复此过程,将产生一个*承诺剖面*,定位出轨迹何时变得对欺骗做出承诺。

1 欺骗挖掘:从同一提示/状态采样多条轨迹  
提示要求:等级:7,手牌:[7,K] 说明:面朝下打出一张牌并声明其等级  
诚实玩法:打7,说“7”  
欺骗玩法:打K,说“7”  
s_i = 句子i  
s_1 s_2 s_3  
s_1 s_2 s_3  
s_1 s_2 s_3  
s_1 s_2 s_3  
保留一条诚实 + 一条欺骗示例  
诚实 欺骗  

2 反事实定位:固定一个前缀并重新采样未来  
s_1 我需要打出一张牌并声称它是7。  
s_2 我可以诚实地打出7。  
s_3 把7留到以后可能更好。  
固定前缀 y_{1:k}  
生成1 “我应该打出7并保持简单。” (打7,说“7”)  
生成2 “我会保留7,改打K。” (打K,说“7”)  
生成3 “在这里用K可以让我把7留到以后。” (打K,说“7”)  
反事实欺骗率 p̂(k)=2/3  

3 承诺剖面:跨句子边界的 p̂(k)  
p̂(k) 句子索引 0 1 1 2 3 4 5  
承诺节点: Δp̂(k) 大

图 1:欺骗挖掘与反事实定位。在**欺骗挖掘**中,我们重复从同一环境状态采样,并从该状态保留恰好一条诚实和一条欺骗性轨迹。每个 s_i 表示推理轨迹中的一个句子。在**反事实定位**中,我们固定一个句子前缀,并从该前缀采样大量反事实续写,以估计反事实欺骗率 p̂(k)。在句子边界重复此过程,得到一个**承诺剖面**,揭示推理轨迹中做出欺骗决策的位置。

**具有内在欺骗标签的环境。** 欺骗源于信息不对称:当一方持有的私有信息另一方缺乏时,误导性沟通可能在策略上有利。因此,我们将*参与者视角*与*预言机视角*分离。参与者面对的是真正的部分信息(隐藏的牌、私人估值、未披露的缺陷或特权地图知识),而预言机视角暴露了完整的环境状态,使我们能够机械性地确定某个动作或陈述是否具有欺骗性。

**阶段 1:欺骗挖掘。** 设 s 表示环境状态,p_θ(y|s) 为模型在给定状态下的生成分布。对于每个状态,我们采样多条推理轨迹 y^{(1)}, ..., y^{(n)} ∼ p_θ(·|s)。由于生成是随机的,同一状态可能同时产生诚实和欺骗性轨迹;当两种轨迹都被观察到时,我们各保留一条以形成匹配对。这种类别平衡为我们提供了一个受控测试平台,用于研究给定前缀是否会导向欺骗。

**阶段 2:反事实定位。** 我们将每个响应分解为句子 y = (s_1, ..., s_m),并用 y_{1:k} = (s_1, ..., s_k) 表示通过第 k 个句子的前缀。

**反事实欺骗率。** 对于每个前缀 y_{1:k},我们固定通过第 k 个句子的轨迹,并采样 M 个续写 ỹ_{k+1:m}^{(j)} ∼ p_θ(·|s, y_{1:k})。

相似文章

无理解的趋同:语言模型表征一致但推理分歧

arXiv cs.CL

本文通过考察来自8个家族的16个语言模型在800个推理问题上的表现,探究了Platonic Representation Hypothesis。研究发现,虽然模型在内部表征上趋于一致,但在推理过程中,尤其是决策后阶段,它们出现分歧,而且共享的表征对预测的因果影响极小。

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。