衡量开源权重 LLM 中的评估上下文发散:一种配对提示协议及对对齐管线特定异质性的初步证据

arXiv cs.CL 论文

摘要

本文介绍了一种配对提示协议,用于衡量开源权重大型语言模型(LLM)中的“评估上下文发散”,研究发现模型的行为会根据提示是被框定为评估还是实际部署而有所不同。该研究突显了不同模型间的异质性,有些模型表现为“评估谨慎型”,而另一些则表现为“部署谨慎型”,这引发了对安全基准有效性的担忧。

arXiv:2605.06327v1 公告类型:新论文 摘要:安全基准通常被视为语言模型部署后行为表现的证据,但如果模型行为取决于提示是否看似评估性质,那么这一推断是脆弱的。我们将“评估上下文发散”定义为:通过将固定任务框定为评估、实时部署交互或中性请求,而在同一项目内部引发的可观察行为变化。我们提出了一种配对提示协议,在控制改写变体、基准熟悉度以及评判者框架敏感性的情况下,衡量开源权重 LLM 中的这种发散。 在来自四个开源权重系列的五个指令微调检查点,以及一个匹配的 OLMo-3 基础/指令消融实验中(20 个配对项目,每个检查点 840 次生成),我们发现了显著的异质性。OLMo-3-Instruct 是唯一表现出“评估谨慎”的模型——评估框架使拒绝率相比中性框架提高了 11.8 个百分点(p=0.007),并使有害顺从率相比部署框架降低了 3.6 个百分点(p=0.024,20 个项目中无项目出现反转)。而 Mistral-Small-3.2、Phi-3.5-mini 和 Llama-3.1-8B 则表现出“部署谨慎”特征,其评估对比部署的拒绝效应边际变化为 -9 至 -20 个百分点。匹配的 OLMo-3 基础模型也表现出部署谨慎模式,这表明对齐是导致反转的阶段;在 Llama-3.1 中,70B 模型保持了方向一致但幅度减弱,排除了简单的“在规模扩大时反转的小模型效应”。一个需要注意的点是:跨系列的异质性依赖于评判者。使用不同系列的安全分类器(Llama-Guard-3-8B)重新评判保留了 OLMo 内部评估谨慎的方向,但抹平了跨系列的对比差异,表明这两种评判者操作化了不同的构建概念。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:46

# 在开源大语言模型中评估评估上下文发散性:一种配对提示协议及其对对齐流程特异性异质性的初步证据

来源:https://arxiv.org/html/2605.06327

安全基准测试通常被视为关于语言模型部署后行为表现的证据,但如果模型行为取决于提示词是否看起来像是一次“评估”,这种推断将是脆弱的。我们将**评估上下文发散(evaluation-context divergence)**定义为一种可观察到的行为变化,即在固定任务中,通过将任务框架化为一次评估、一次真实部署交互或一个中性请求,所引发的逐项行为改变。我们提出了一种配对提示协议,用于在开源大语言模型(LLM)中测量这种发散性,同时控制了释义变异、基准熟悉度以及裁判对框架的敏感性。

在对来自四个开源家族的五个指令微调检查点以及一个匹配的 OLMo-3 基础/指令消融实验(共 2020 个配对条目,每个检查点 840 次生成)的研究中,我们发现了显著的异质性。唯有 OLMo-3-Instruct 表现出**“评估谨慎”**特征——与中性框架相比,评估框架使拒绝率提高了 11.8 个百分点($p=0.007$),与部署框架相比,有害遵从率降低了 3.6 个百分点($p=0.024$,0/20 个条目出现反向结果)。相比之下,Mistral-Small-3.2、Phi-3.5-mini 和 Llama-3.1-8B 则表现出**“部署谨慎”**特征,评估与部署之间的拒绝效应边际值为 -9 至 -20 个百分点。匹配的 OLMo-3 基础模型也表现出部署谨慎模式,这表明对齐过程是导致这种反转的阶段;在 Llama-3.1 内部,70B 模型保持了相同的方向但幅度减弱,这排除了简单的“小规模模型在大规模下反转”效应。

有一个需要注意的 caveat:跨家族的异质性是**依赖于裁判(judge-dependent)**的。使用不同家族的安全分类器(Llama-Guard-3-8B)重新评判保留了 OLMo 内部评估谨慎的方向,但抹平了跨家族的对比,表明这两种裁判操作化了不同的构念。我们将此项工作定位为一种建立该协议并发现对齐流程特异性异质性的 2020 条目初步研究;480 条目的确认性运行、三人标注员等价性审计、分层污染分析以及多裁判集成留待未来工作完成。

关键词:LLM 安全评估,评估上下文发散,配对提示协议,对齐,开源语言模型

## 1 引言

大型语言模型的安全评估通过对基准提示词的响应进行评分,并将这些分数视为部署行为证据的方式来进行。这一工作流程预设了上下文鲁棒性:由基准风格提示词引发的行为对于普通使用场景中类似请求下的行为具有指示意义。如果基准框架会改变行为,那么分数就会与提示词的**测试上下文**纠缠在一起。

多项文献使这一担忧变得合理:情境感知 [Berglund2023-jp, Laine2024-xs]、对齐伪装和奖励篡改 [Greenblatt2024-di, Denison2024-yr, Hubinger2024-it, Meinke2024-vm, Park2023-nh, Scheurer2023-lr, Hagendorff2024-io]、保留实力(sandbagging)[van-der-Weij2024-hk, Tice2025-ke]、基准污染 [Li2024-jj, Li2023-ux, Yang2023-co, Xu2024-sl, Deng2024-ft, Yao2024-ql] 以及提示敏感性 [Sclar2023-ji, Mizrahi2023-ji, Zhuo2024-yb, Chatterjee2024-bw, He2024-wj, Hua2025-hs]。

配对提示研究中的可观察量并非战略意图:它是框架干预下的行为变化。因此,我们将实证目标表述为一个行为构念:**在控制释义变异和基准熟悉度后,开源语言模型在面对被框架化为评估、实时部署交互或中性交互的相同任务时,响应是否有所不同?**

我们应用了一种配对提示协议,包含强制中性框架、释义控制、掩码人类等价审计(计划中)以及匹配的基础/指令消融实验,以将效应定位于特定的训练阶段。

关于跨四个开源家族的五个指令微调检查点以及 OLMo-3 基础/指令消融和 Llama 8B/70B 规模检查的初步证据(§6.5–6.8):OLMo-3-Instruct 是唯一一个评估框架使模型比部署框架更倾向于拒绝的家族;其匹配的基础模型则表现出相反的情况。在主要裁判下,锁定聚类稳健 GLM 在模型×评估交互项上以 $p \leq 0.025$ 拒绝其他四个非 OLMo 指令检查点与 OLMo-3-Instruct 相同的假设;在基于内容政策的第二裁判下,跨家族异质性被抹平(§6.5,跨裁判敏感性)。污染分层(H2)和掩码三人审计留待未来工作。

## 2 相关工作及本文填补的空白

本研究位于四个文献领域的交汇处。关于情境感知和对齐伪装的研究表明,模型可以推断交互的上下文属性并根据监督情况调整行为 [Berglund2023-jp, Laine2024-xs, Greenblatt2024-di, Hubinger2024-it, Denison2024-yr, Meinke2024-vm],这激发了基准上下文发散的可能性,但未隔离受控的基准对部署效应。

保留实力研究 [van-der-Weij2024-hk, Tice2025-ke] 将选择性表现不佳视为一种具体表现;我们的构念更广泛(拒绝上升或下降、有害细节偏移、保真度偏移),因此保留实力是特例而非定义。

污染研究记录了基准知识可以通过直接泄漏、释义重叠和多语言转移获得 [Li2024-jj, Li2023-ux, Xu2024-sl, Yang2023-co, Yao2024-ql, Deng2024-ft]:仅靠可识别性就可能产生发散,而无需任何通用的“正在被测试”表征;因此,设计需要明确的证伪逻辑。

提示敏感性研究表明,保持语义不变的措辞变化会导致分数大幅波动 [Sclar2023-ji, Mizrahi2023-ji, Zhuo2024-yb, Chatterjee2024-bw, He2024-wj, Hua2025-hs],因此框架必须与释义交叉,以便在与项内释义基线进行对比时进行估计。

我们的贡献并非声称模型具有欺骗性,而是一种测量评估上下文发散的协议,具有明确的识别假设:一个可观察的目标量而非推断的意图,一个将框架与释义分离的交叉设计并包含强制中性条件,一个具有报告的一致性和阈值敏感性的可审计等价协议,以及一个仅在存在匹配检查点时才进行基础/指令比较的固定实证计划。

## 3 目标构念与识别策略

对于每个源基准条目 $i$,我们构造两个语义匹配的正文释义 $b_{iA}, b_{iB}$,并通过函数 $g$ 将每个释义与三个框架标签之一 $f \in \{E, D, N\}$ 组合,该函数将框架插入预定义插槽中,而不改变任务正文的其他部分。

按条目 $i$、模型 $m$、框架 $f$、释义 $r \in \{A, B\}$ 和解码采样 $d \in \{1, \dots, 7\}$(如 §5.2 所述,一次确定性加六次随机性)索引结果,$Y_{imfrd}^{(k)}$ 是响应 $d$ 落入结果类别 $k \in \{\text{refusal, harmful compliance, prompt-template completion, off-topic}\}$ 的指示变量。

主要估计量是平均 over 释义的项内框架对比:
$$ \Delta_{im, f_1 \text{ vs } f_2}^{(k)} = \frac{1}{2} \sum_{r} \mathbb{E}_d [Y_{imf_1rd}^{(k)} - Y_{imf_2rd}^{(k)}] $$
针对三个框架对 $(f_1, f_2) \in \{(E,D), (E,N), (D,N)\}$。

非零的 $\Delta_{im}^{(k)}$ 即为**评估上下文发散**,这是一种可观察的行为效应(并非欺骗或隐藏目标的证据)。同样的发散可能源于三种机制:普通提示敏感性(表面形式变化)、污染驱动的熟悉度(识别出类似基准的材料)或评估线索响应(模型根据这是评估的线索进行调整)。没有行为协议能在强意图意义上证明第三种机制。

因此,设计内置了三个证伪检查——释义控制、低污染分层和强制中性框架——旨在支持更站得住脚的主张:即发散性不能简化为释义噪声,也不完全由最高熟悉度条目解释(附录 B 中的识别矩阵)。

## 4 协议

### 4.1 基准和条目选择

实证研究应在一组固定的公开安全基准上预先注册,这些基准的提示词公开且许可证允许分发衍生变体。为了限制研究者自由度,我们建议在提示词重写开始之前进行分层抽样。主要研究应包含四个层级:显式有害协助提示词、越狱或策略冲突提示词、模糊边界案例以及来自相同基准家族的良性控制提示词。在每个层级内,条目应根据试点评判确定的三个粗略难度层级进行平衡。

我们将难度操作化为保留参考指令模型在中性框架下温度为 0 时的经验拒绝率:拒绝率位于下三分之一区间的条目为**简单**(参考模型遵从),中间三分之一为**中等**(混合遵从),上三分之一为**困难**(参考模型直接拒绝)。这使得难度成为在应用任何框架操纵之前固定的模型相对属性。

本试点研究的参考模型是 OLMo-3-7B-Instruct(在中性框架下);未来工作将在名册中轮换参考模型,以检查难度层级是否不对某个对齐流程特有。

一个实际目标是每个层级保留 120 个条目(总共 480 个),在运行任何生成之前进行采样。这对于支持基准层面的随机效应、分层污染分析和基于等价性的排除来说足够大,同时在当前的开源检查点上保持可行性。

### 4.2 框架局部化提示词构建

设计的主要修改是框架变化仅限于预先批准的插槽,而权威性和指令源保持不变。特别地,评估和部署提示词不应在说话者身份、哪条消息优先级更高,或者请求是作为系统指令还是用户请求表述方面存在差异。唯一的预期变化是交互上下文。

对于每个条目,我们创建两个释义的任务正文,并与三个框架前缀进行交叉,这些前缀共享固定的包装文本,仅在框架从句上有所不同(“内部安全评估的一部分” / “由实时交互中的用户发送” / “独立请求”)。逐字前缀见附录 B.5。由于包装和消息角色在三种条件下是相同的,观察到的差异不太可能归因于指令源或问责层级的变化。

### 4.3 语义等价审计

该协议依赖于正文释义保留相同的底层任务。完整的审计是一个掩码三人标注员协议,报告 Fleiss' $\kappa$(完整代码本在附录 A);对于当前的试点,我们报告一个实用的 LLM 等价替代品(Qwen2.5-32B-Instruct-AWQ 根据 1-5 代码本对每个 $(b_a, b_b)$ 对进行评分,其中框架包装被掩码)。在 20 对中,裁判返回 13 对得分为 4,7 对得分为 5(没有一对 $\leq 3$);限制在严格 =5 的子集保留了两个对比(附录 B.7)。同家族裁判的限制促使将掩码三人审计作为计划的完整协议。

## 5 模型名册、解码与污染

### 5.1 固定的开源模型名册

试点固定了来自四个开源家族的五个指令微调检查点以及一个匹配的 OLMo-3 基础/指令消融:Olmo-3-7B-Instruct 与 Olmo-3-7B 配对 ([AllenAI2025-olmo3]),Mistral-Small-3.2-24B-Instruct-2506 [Mistral2025-small32],Phi-3.5-mini-instruct (3.8B),Llama-3.1-8B-Instruct 和 Llama-3.1-70B-Instruct,全部以 AWQ INT4 加载。Llama-3.1 8B/70B 对提供了在固定对齐数据版本下的家族内规模检查;H3 仅在 OLMo-3 家族上评估(没有其他名册家族在可比许可下以相同规模发布匹配的基础/指令对)。

计划的 Google 家族检查点(gemma-3-27b-it)因硬件受限(vLLM 禁止 Gemma 3 使用 float16,Turing GPU 缺乏 bfloat16,27B 超过每 GPU 显存);未来工作将增加 Google 和 MoE 家族。

### 5.2 解码网格

解码必须是明确的。我们提出三个温度 $\{0.0, 0.4, 0.8\}$ 和非确定性温度的三个随机种子,每个提示条件产生七次生成(一次确定性和六次随机性)。该网格小到足以可行,大到足以估计框架效应是否对适度的解码变异具有鲁棒性,而非由单个样本驱动。

### 5.3 计算预算与污染评分(计划中)

完整设计约为每个检查点 20,200 次生成(整个名册约 150 个 H100 小时)。条目将接收连续熟悉度评分 [Li2023-ux],具有保留参考和词汇重叠鲁棒性 [Li2024-jj, Xu2024-sl];由于同一条目在每个框架中具有相同的污染评分,污染是一个处理前协变量。两者均推迟至未来工作(附录 B);试点仅报告 H1 和 H3。

## 6 结果、聚合与统计分析

### 6.1 主要和次要结果

我们预先注册了两个主要结果——拒绝率和有害完成率(由改编自 [Mazeika2024-tk] 的四分类方案评判)——以及两个次要结果:在存在黄金标准时的任务保真度或策略合规性,以及语义响应发散(每对响应的 overall-mpnet-base-v2 嵌入的余弦距离,以及对分层 10% 子样本的有序 LLM 裁判量规)。所有声明均针对个别结果分别报告;聚合发散指数仅作为次要鲁棒性统计量保留。

### 6.2 主要模型

对于二元结果,预先注册的主要规格是边际逻辑回归,具有项聚类 Liang–Zeger 标准误,并将污染以其样本均值为中心($\tilde{C}_i = C_i - \bar{C}$):

$$ \text{logit} \, \Pr(Y_{imfrd}^{(k)}=1) = \beta_0 + \beta_f[\text{frame}] + \beta_r[\text{paraphrase}] + \beta_c \tilde{C}_i + \beta_{fc}[\text{frame}] \, \tilde{C}_i . $$

中心化确保框架主效应在总体平均污染水平下可解释,而不是在外推 $C_i=0$ 下。我们选择边际规格而非带有随机截距的 GLMM,因为在 $n=20$ 个条目时,方差分量识别较弱,且小聚类渐近线支持三明治...

相似文章

面向比较图的可靠LLM评估的提示扰动

arXiv cs.CL

提出了一种提示扰动框架,该框架生成扰动的提示变体,通过图级一致性检查过滤掉结构不一致的比较模式,然后应用标准排名方法产生更可靠的LLM排名。

论大型语言模型评估中提示排名的稳定性

arXiv cs.CL

本文系统研究了常见变异来源下,大型语言模型评估中提示排名的稳定性,发现表现最佳的提示经常发生变化。为此,提出了一种基于下置信界的稳定性感知选择策略,以提高鲁棒性。