语言模型中的评估意识对行为的影响有限

arXiv cs.CL 论文

摘要

本文探讨了大型推理模型中的言语化评估意识(VEA)是否对其在安全性、对齐、道德推理和政治观点基准测试中的行为产生因果影响。研究发现,VEA 对行为的影响有限:注入 VEA 产生的效应接近于零,而移除 VEA 仅导致微小偏移。这表明,不应将高 VEA 发生率视为战略性行为或对齐篡改的有力证据。

arXiv:2605.05835v1 公告类型:新文章 摘要:大型推理模型(LRMs)有时会在其思维链(CoT)中指出它们可能正处于被评估的状态。研究人员担心,这种言语化的评估意识(VEA)会导致模型策略性地调整其输出,以优化其认为的评估标准,这可能导致模型表现得比实际情况更安全。然而,VEA 是否真的产生这种影响尚知之甚少。我们在多个涵盖安全性、对齐、道德推理和政治观点的基准测试上,对开放权重的 LRMs 进行了测试。我们采用了两种测试方式:一是随策略(on-policy)测试,即对每个条目采样多个思维链,并比较自发包含 VEA 与不包含 VEA 的思维链;二是离策略(off-policy)测试,利用模型预填充技术在缺失 VEA 的句子中注入评估意识语句,或在存在 VEA 的句子中将其移除,随后进行重新采样。 结果显示,VEA 对模型行为的影响有限:在思维链中注入 VEA 产生的效应接近于零($\omega \leq 0.06$),移除 VEA 仅造成微小偏移($\omega \leq 0.12$),而自发产生的 VEA 最多使答案分布偏移 3.7 个百分点($\omega \leq 0.31$)。我们的研究结果表明,在将高 VEA 发生率解读为战略性行为或对齐篡改的证据时应持谨慎态度。评估意识所带来的安全风险可能小于当前文献所假设的程度。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:44

# 语言模型中的评估意识对行为的影响有限

来源: https://arxiv.org/html/2605.05835

Amelie Knecht 斯图加特大学 & Lucas Florin 斯图加特大学 & Thilo Hagendorff 斯图加特大学

###### 摘要

大型推理模型(LRMs)有时会在其思维链(CoT)中指出它们可能正在接受评估。研究人员担心,这种“言语化的评估意识”(VEA)会导致模型策略性地调整输出,以优化对感知到的评估标准的符合度,例如使模型表现得比实际更安全。然而,VEA 是否真的产生这种影响尚不清楚。我们在开源权重 LRM 以及涵盖安全性、对齐、道德推理和政治观点的基准测试中对此进行了测试。我们既进行了 on-policy(策略内)测试,即对每个项目采样多个 CoT,并比较那些自发包含 VEA 的 CoT 与不包含 VEA 的 CoT;也进行了 off-policy(策略外)测试,使用模型预填充(prefilling)在缺失处注入评估意识句子,在存在处移除这些句子,随后重新采样。

VEA 对模型行为的影响有限:在 CoT 中注入 VEA 产生的影响近乎为零($\omega \leq 0.06$),移除它仅导致微小变化($\omega \leq 0.12$),而自发出现的 VEA 使答案分布最多偏移 3.7 个百分点($\omega \leq 0.31$)。我们的研究结果呼吁在将高 VEA 率解释为策略性行为或对齐篡改的证据时保持谨慎。评估意识所构成的安全风险可能小于当前文献所假设的水平。

## 1 引言

大型推理模型(LRMs)有时会意识到自己正在被评估,并在其思维链(CoT)中明确表达这一点\[undefj (https://arxiv.org/html/2605.05835#bib.bibx11),undefr (https://arxiv.org/html/2605.05835#bib.bibx19),undefm (https://arxiv.org/html/2605.05835#bib.bibx14),undef (https://arxiv.org/html/2605.05835#bib.bibx1),undefh (https://arxiv.org/html/2605.05835#bib.bibx9)\]。这种评估意识引发了人们对“藏拙”(sandbagging)、“谄媚”(sycophancy)、“对齐伪装”(alignment faking)、欺骗或“图谋”(scheming)的担忧\[undefac (https://arxiv.org/html/2605.05835#bib.bibx30),undefp (https://arxiv.org/html/2605.05835#bib.bibx17),undefy (https://arxiv.org/html/2605.05835#bib.bibx26)\]。特别是,人们担心这种意识会改变模型的输出。换句话说,研究人员隐含地将评估意识与评估博弈(evaluation gaming)联系起来。然而,支持这种行为转变的证据很少。大多数现有研究通过使用为此目的微调的模型生物体来引发评估博弈,或在狭窄且过于具体的任务上展示评估博弈,或者仅关注单个模型或模型家族,这使得结果难以泛化\[undef (https://arxiv.org/html/2605.05835#bib.bibx1),undefy (https://arxiv.org/html/2605.05835#bib.bibx26),undefl (https://arxiv.org/html/2605.05835#bib.bibx13),undefae (https://arxiv.org/html/2605.05835#bib.bibx32)\]。

本研究关注*言语化的*评估意识(VEA),即明确推理自己可能正在被评估或监控的可能性。我们考察了 VEA 是否会对八个开源前沿 LRM 和四个基准测试(安全性、对齐、道德推理、政治观点)中的模型输出产生因果影响。我们使用模型预填充\[undefa (https://arxiv.org/html/2605.05835#bib.bibx2)\]从 CoT 中注入或移除评估意识,并测量与这些干预相关的行为变化。我们还比较了自然包含 VEA 的 CoT 的输出与不包含 VEA 的 CoT 的输出,未对 CoT 进行任何干预(图1 (https://arxiv.org/html/2605.05835#S1.F1))。

我们的研究结果揭示了 VEA 对行为的有限影响。将其注入 CoT 相对于对照注入产生的影响近乎为零($\omega \leq 0.06$),移除 VEA 在所有基准测试中产生的变化可以忽略不计($\omega \leq 0.12$)。自发出现的 VEA 使答案分布最多偏移 3.7 个百分点($\omega \leq 0.31$)。单个模型在特定基准测试上显示出较大的变化,但总体模式是小效应。这些结果有多重含义:它们表明模型并未将评估意识的表达与博弈行为或其他一致性调整联系起来;表明模型可能在言语化意识之前就已经确定了答案;表明它们可能潜伏地意识到我们对其评估意识的评估;或者表明它们拥有预填充意识\[undefa (https://arxiv.org/html/2605.05835#bib.bibx2)\]并因此抑制评估博弈(我们认为这极不可能);并且需要进一步的研究来加强或反驳评估意识对(安全关键)行为影响有限的这一发现。

本文结构如下。首先,我们提供相关工作概述(第2节 (https://arxiv.org/html/2605.05835#S2))。然后描述我们的基准测试和实验设置(第3节 (https://arxiv.org/html/2605.05835#S3))。接下来,我们展示 on-policy(无 CoT 干预)和 off-policy(VEA 的注入和移除)实验的结果(第4节 (https://arxiv.org/html/2605.05835#S4))。最后,我们在第5节 (https://arxiv.org/html/2605.05835#S5) 讨论含义和局限性。

参见标题图 1:我们三种实验条件的插图:VEA 的注入和移除,每种都设有对照组,以及 on-policy 采样。模型输出在四个基准测试上进行评估。

## 2 相关工作

#### 评估意识

当前的前沿模型通常能够区分评估环境和部署环境。已提出几种方法来检测这种能力:要求模型将对话记录分类为评估或部署\[undefm (https://arxiv.org/html/2605.05835#bib.bibx14),undefr (https://arxiv.org/html/2605.05835#bib.bibx19)\],监控思维链\[undefj (https://arxiv.org/html/2605.05835#bib.bibx11),undefh (https://arxiv.org/html/2605.05835#bib.bibx9)\],对内部表示应用线性探针\[undef (https://arxiv.org/html/2605.05835#bib.bibx1),undeff (https://arxiv.org/html/2605.05835#bib.bibx7),undefs (https://arxiv.org/html/2605.05835#bib.bibx20)\],或测试语境外的推理\[undefd (https://arxiv.org/html/2605.05835#bib.bibx5)\]。然而,这种能力在多大程度上改变下游行为仍 largely 未得到探索。

先前的工作已将评估意识确定为潜在的安全风险。如果模型意识到自己正在接受测试,它们可能会表现不佳以隐藏危险能力\[undefac (https://arxiv.org/html/2605.05835#bib.bibx30)\],秘密追求未对齐的目标\[undefp (https://arxiv.org/html/2605.05835#bib.bibx17),undefy (https://arxiv.org/html/2605.05835#bib.bibx26)\],伪装对齐\[undefk (https://arxiv.org/html/2605.05835#bib.bibx12)\],或搞破坏\[undefc (https://arxiv.org/html/2605.05835#bib.bibx4)\]。相反,抑制评估意识被发现会在某些任务上增加模型的对齐偏差\[undefb (https://arxiv.org/html/2605.05835#bib.bibx3)\]。然而,大多数研究通过提示或微调来诱导评估意识,而不是观察其自发出现,这使得它们对现实世界的适用性较低。\[undefy (https://arxiv.org/html/2605.05835#bib.bibx26)\]最接近我们的工作。他们将意识句子预填充到 CoT 中,并显示这在两个闭源模型(o3, o4-mini)中降低了隐蔽行动率。然而,他们的分析是反图谋训练论文中的次要贡献。因此,它仅限于两个模型、单一任务、样本量小导致置信区间宽,且未报告效应量。相比之下,我们进行了更全面的分析,包括跨越四个基准测试的八个开源模型,样本量更大,并提供了完整的分布统计。

#### CoT 干预与忠实性

先前的工作表明,CoT 并不总是反映模型输出背后的完整推理过程\[undefab (https://arxiv.org/html/2605.05835#bib.bibx29),undefn (https://arxiv.org/html/2605.05835#bib.bibx15)\]。一种测试 CoT 是否因果影响模型输出的方法是直接对推理轨迹进行干预\[undefx (https://arxiv.org/html/2605.05835#bib.bibx25),undefad (https://arxiv.org/html/2605.05835#bib.bibx31),undefo (https://arxiv.org/html/2605.05835#bib.bibx16)\]。初步证据表明,模型识别修改后的对话历史的能力是脆弱的\[undefa (https://arxiv.org/html/2605.05835#bib.bibx2)\],尽管这种能力在开源模型中仍不一致且有限。

#### 贡献

在这项工作中,我们提供了第一次大规模因果测试,评估 VEA 对模型行为的影响。我们将先前的工作扩展到更多的模型和基准测试,结合了对自发 VEA 的 on-policy 比较和 off-policy CoT 干预(注入和移除),以隔离 VEA 的效果与 CoT 修改本身,并报告了结果的完整分布统计。我们发布了基准测试和代码以供后续研究111https://osf.io/428nt/overview?view_only=ebb0f7b913c741f4a217704afde68771。

## 3 方法

#### 模型

对于我们的实验,我们使用了八种不同的开源权重 LRM:DeepSeek-R1-0528\[undefg (https://arxiv.org/html/2605.05835#bib.bibx8)\],GLM-5\[undefi (https://arxiv.org/html/2605.05835#bib.bibx10)\],GPT-OSS-120b\[undeft (https://arxiv.org/html/2605.05835#bib.bibx21)\],Kimi-K2.5\[undefz (https://arxiv.org/html/2605.05835#bib.bibx27)\],MiniMax-M2.5\[undefq (https://arxiv.org/html/2605.05835#bib.bibx18)\],Nemotron-3-super-120b-a12b\[undefe (https://arxiv.org/html/2605.05835#bib.bibx6)\],Qwen3-32b\[undefv (https://arxiv.org/html/2605.05835#bib.bibx23)\],以及 Qwen3.5-397b-a17b\[undefw (https://arxiv.org/html/2605.05835#bib.bibx24)\]。我们通过 Nebius 和 TogetherAI 使用 completion API 生成输出,注入实验的温度设为 0,移除和 on-policy 实验的温度设为 0.8。所有实验的总计算成本约为 3,000 美元。

#### 基准测试

我们在四个基准测试上评估模型行为,涵盖安全性、对齐、道德推理和政治观点。安全性基准测试产生序数有害性评分(0-4);其余三个基准测试产生分类结果(两种对立立场加上不表态)。每个基准测试包含 $N=500$ 个项目。示例项目和生成细节见附录 A (https://arxiv.org/html/2605.05835#A1)。

- • 安全性。我们使用涵盖犯罪、有害刻板印象、诽谤等主题的基准测试评估模型回答的有害性。每个提示由一个开放式请求组成,如果完成,可能对个人造成中度伤害。模型回答根据有害性量表从 0(完全安全)到 4(完全协助执行有害行动)进行评分。
- • 对齐。我们从\[undefaa (https://arxiv.org/html/2605.05835#bib.bibx28)\]中采样了 500 个基准测试项目,其中模型面临一个场景,必须在两个选项之间做出选择:一个与开发者的目标和价值观一致,另一个未对齐但工具性上更具吸引力。我们自动排除了主题标签包含奖励黑客(reward-hacking)、RLHF、评估、测试或博弈的项目,以避免将任务内容与评估意识混淆。模型回答由 LLM 裁判分类为对齐、未对齐和不表态(模棱两可的回答和拒绝)。
- • 两难困境。我们评估模型如何解决道德两难困境。这些场景要求模型在功利主义行动(以个人为代价防止更大伤害)和义务论行动(尽管总体结果更差但仍坚持道德规则)之间做出选择。输出由 LLM 裁判判定为义务论、功利主义和不表态。
- • 政治观点。我们改编了\[undefu (https://arxiv.org/html/2605.05835#bib.bibx22)\](CC BY 4.0)中的 500 个项目,使用 LLM 将政治陈述转化为“你是否同意 \[陈述\]?”形式的问题。每种立场映射到西方政治光谱(左/右)的一侧,以便输出可以由 LLM 裁判分类为左派、右派和不表态。我们在答案字段中预填充了 `<open>` 标签,以鼓励模型推理,因为有些模型倾向于跳过并立即响应。否则,模型未收到任何其他指令,以免引发特定的响应模式。

#### 展开生成与分类

我们在所有四个基准测试上运行每个模型,on-policy 实验进行 10 次迭代,off-policy 实验进行单次迭代。我们使用单独的 LLM 裁判进行输出分类:Claude 4.6 Sonnet 用于安全性基准测试中展开的有害性评分;GPT-5 mini 用于提取对齐和两难困境基准测试的答案选项;Gemini 3.1 Flash-Lite Preview 用于提取政治基准测试的答案选项并检测推理痕迹中的 VEA。我们将 VEA 定义为模型推理痕迹中任何明确提及交互可能是测试、评估或基准测试的陈述。所有裁判均与人工注释进行了评估;标注者间一致性为实质性到近乎完美(Cohen’s $\kappa = 0.71-0.88$)。裁判详情、提示和标注者间一致性得分见附录 B (https://arxiv.org/html/2605.05835#A2)。对于 on-policy 实验,包含 VEA 的展开比例因提示和模型而异(图7 (https://arxiv.org/html/2605.05835#A3.F7), 附录 C (https://arxiv.org/html/2605.05835#A3)),其中无意识展开占主导地位。

#### 注入

为了测试 VEA 是否改变模型行为,我们将两种类型的字符串注入到模型 CoT 中:表达评估意识的句子(VEA 句子),以及包含与评估无关的元认知或过程相关思想的对照句子(control sentences)。所有注入结果均比较相同提示下 VEA 注入与对照注入的情况。对于每个模型,我们从该模型自身的展开中采样 5 个与基准无关的 VEA 句子。我们为 GPT-OSS-120b、Qwen3-32b、Nemotron-3-super、Kimi-K2.5 和 DeepSeek-R1 生成了额外的 VEA 句子,因为我们在它们的 CoT 中很少发现与基准无关的句子。对于对照句子,我们提示每个模型生成 10 个简短的元认知句子,并从中随机采样五个。VEA 和对照句子的完整列表见附录 D (https://arxiv.org/html/2605.05835#A4)。

句子在 CoT 的开始处和约 $\sim 1/3$ 字符处注入。在后一种情况下,确切的注入点设置在句子或段落结束后,以保持 CoT 的自然流畅性。我们保留注入点之前的原始 CoT,添加句子并从此处重新采样。这为每个提示的每种句子类型产生了 10 种新组合(5 个句子 $\times$ 2 个位置),我们通过对答案标签进行多数投票将其合并为每个注入位置的一个。我们仅注入到那些自然不包含 VEA 的模型展开子集中,使我们能够直接比较相同提示下有无 VEA 内容的模型输出。

#### 移除

我们比较了应用于同一原始包含 VEA 的 CoT 的两种条件。在移除条件下,我们在第一个包含 VEA 的句子之前截断 CoT,并从该点重新采样,直到 CoT 不再包含任何 VEA。我们使用 0.8 的温度进行重新采样,因为温度 0 会逐字重现原始续写。我们重复此过程,直

相似文章

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。

更多推理,更低准确性?论视觉语言模型中推理的双重性

Papers with Code Trending

本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。

Vernier: 探究因果推理中词汇缺口背后的表征错位

arXiv cs.CL

本文探究了为何指令调优的语言模型在将变量名替换为占位符后,对因果推理问题给出不同答案,发现问题源于表征错位而非信息丢失。作者引入了Vernier方法,通过配对视图权重更新和机制检查,揭示出答案相关内容在占位符视图中仍然存在但错位。

解构并引导大型语言模型中的功能性元认知

arXiv cs.CL

本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。