关于基于代理的测试时对齐的拒绝准则

arXiv cs.CL 论文

摘要

本文分析了使用小型对齐模型作为代理来指导大型未对齐模型生成的测试时对齐方法。作者提出了一种基于保守置信赌注的新型拒绝准则,并在多个数据集上展示了相比现有方法的改进效果。

arXiv:2604.16146v1 公告类型:新 摘要:最近的工作提出了测试时对齐方法,这些方法依赖于一个小型对齐模型作为代理来指导较大基础(未对齐)模型的生成。隐式奖励方法会改变大型模型的分布,而轻推方法则在大型基础模型对其结果不确定时,将下一个标记的生成延迟到小型对齐模型。在本工作中,我们首先证明两种方法都可以简化为从相似的图模型中采样,它们仅在拒绝准则(或分布)的定义上有所不同。此外,我们论证了置信度准则由于歧义措辞等语言现象而缺乏动机。我们提出了一种基于保守置信赌注的新型拒绝准则。在实验上,我们的新方法在多个数据集上的表现优于以往工作。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:30

# 关于基于代理的测试时间对齐的拒绝标准
来源: https://arxiv.org/html/2604.16146

Ayoub Hammal1 Pierre Zweigenbaum1 Caio Corro2

1巴黎-萨克利大学,法国国家科研中心,LISN
2雷恩国家应用科学学院,IRISA,法国国家科研中心,雷恩大学

{ayoub.hammal,pz}@lisn.fr [email protected]

###### 摘要

最近的工作提出了测试时间对齐方法,这些方法依赖于一个小型对齐模型作为代理,指导更大的基础(未对齐)模型的生成。隐式奖励方法改变了大型模型的分布(Mitchell et al. 2024),而推动方法在大型基础模型对其结果不确定时将下一个令牌的生成推延到小型对齐模型(Fei et al. 2025;Hammal et al. 2025)。在这项工作中,我们首先展示两种方法都可以简化为从相似的图形模型采样,仅在拒绝标准(或分布)的定义上不同。此外,我们论证置信度标准由于歧义措辞等语言现象而动机不足。我们基于*保守置信度赌注*提出了一种新的拒绝标准。在实验上,我们的新方法在几个数据集上优于之前的工作。

## 1 简介

最近,大型语言模型(LLM)一直是自然语言处理研究社区的主要关注焦点。训练LLM是一个成本高且困难的过程,可以总结为以下三个阶段:

1. **预训练**,其中语言模型在大量文本集合上进行训练;
2. **有监督微调**(SFT),其中模型在选定的输入/输出对上进行训练,例如学习遵循指令;
3. **偏好学习**,包括多种额外的学习步骤,包括来自人类反馈的强化学习(RLHF)、直接偏好优化(DPO)和来自可验证奖励的强化学习(RLVR)。

第2和第3阶段,通常被称为*对齐*阶段,对于使LLM偏向于遵循预期的(人类)偏好、格式或指令,以及更普遍地遵循任何下游任务要求至关重要。不幸的是,这个过程成本高昂且随模型大小扩展性差(Lambert et al. 2025)。因此,测试时间对齐被提议作为对齐阶段的替代方案。在这种设置中,基础模型的分布在生成过程中直接被偏向。

第一种方法是依赖显式奖励。如果奖励是部分的(或单向的,*即*,可以应用于未完成的生成),那么可以使用LLM和奖励管道直接选择下一个令牌候选(Deng and Raffel, 2023;Cao et al., 2023;Khanov et al., 2024,*等*)。然而,根据奖励架构,部分奖励的使用成本可能很高,因为它们需要每个下一个令牌候选进行一次前向传播(Deng and Raffel 2023)或表达能力有限(Troshin et al. 2025),并且难以训练(Rashid et al. 2025)。或者,对于仅在完成生成上定义的奖励,之前的工作提议依赖生成重排(Gao et al. 2023;Li et al. 2023)和马尔可夫链蒙特卡洛采样(Faria and Smith 2025)。这些方法的一个重要缺点是它们需要从基础LLM中抽取许多样本,这意味着生成过程非常缓慢。

第二种方法是用小型对齐LLM对大型基础LLM进行偏向,我们之后称之为基于代理的测试时间对齐。一种流行的方法是从小型对齐模型中提取*隐式部分奖励*,并使用它来"模拟"(未知的)大型对齐LLM从其基础版本的分布(Mitchell et al. 2024;Liu et al. 2024;Li et al. 2025)。然而,构建隐式奖励需要访问小型模型的基础版本和对齐版本。最近,Fei et al.(2025)提议了*推动*方法:在每个生成步骤,他们要么从基础大型模型生成下一个令牌(如果它具有低最小熵),要么从对齐的小型模型生成。Hammal et al.(2025)将推动扩展到令牌特定决策,*即*,他们提议了一个框架,其中将生成推延到对齐小型模型的决策取决于从大型模型采样的令牌。然而,他们的方法基于同样的直觉:当基础模型*对其结果不确定*时,应将生成推延到对齐模型。

#### 贡献

在这项工作中,我们引入了基于代理的测试时间对齐的新图形模型,可以通过*拒绝标准*(或分布)进行参数化。我们展示隐式奖励和推动方法都可以在这个框架中建模,表明它们是相关的,尽管乍一看差别很大。此外,我们论证推动的置信度标准由于歧义措辞等语言现象而动机不足。我们改为提议基于*保守置信度赌注*的新拒绝标准。在实验上,我们的新方法在几个数据集上优于之前的工作。代码可在以下位置公开获取。1 https://github.com/ayoubhammal/knapsack-approximation-deferral

#### 记号

我们用p和q分别表示大型和小型语言模型。我们将区分每个模型的对齐版本为p*和q*。令牌词汇是集合V = {1,...,|V|}。为了简化记号,我们省略对生成上下文的依赖,用粗体字母(如**p**)表示下一个令牌概率向量,由词汇索引,即令牌v ∈ V的概率写为pv。注意**p** ∈ △(|V|),其中△(k)是(k-1)维单纯形。最后,我们将Iverson括号写为⟦·⟧,如果内部条件为真则计为1,否则为0。

## 2 基于拒绝的测试时间对齐

图1:代理基础测试时间对齐分布π的概率图形模型。

在本节中,我们展示基于代理的测试时间对齐的先前工作可以建模为从*概率图形模型*(PGM)采样,其中拒绝标准决定是否应该使用从基础大型模型p采样的样本作为下一个令牌。

#### 图形模型

令π为以下随机变量(RV)上的PGM:

- **x̄**,词汇上的潜在RV;
- **r**,潜在的二进制RV,其样本指示是否应该拒绝x̄样本(r=1)或不拒绝(r=0);
- **x**,词汇上的观察RV(*即*,生成的令牌)。

生成过程定义如下:

1. 从π(x̄)采样草稿令牌w;
2. 从拒绝分布采样决策,给定之前采样的令牌w,*即*,r ~ π(r|x̄=w);
3. 采样最终令牌v ~ π(x|r=r,x̄=w),其中我们要么复制草稿令牌(如果r=0)要么采样新令牌。

这个PGM在图1中描述,所得分布具有以下形式:

π(x=v) = Σ_{w∈V} π(x̄=w)π(r=0|x̄=w) × π(x=v|r=0,x̄=w) + Σ_{w∈V} π(x̄=w)π(r=1|x̄=w) × π(x=v|r=1,x̄=w)

潜在令牌分布设置为大型基础模型分布:

π(x̄=w) = p_w

并且如果草稿样本被拒绝,我们从对齐的小型模型采样,即:

π(x=v|r=r,x̄=w) = {
  ⟦v=w⟧       如果r=0
  q*_v         否则
}

因此,我们只需定义拒绝分布π(r|x̄),即定义Bernoulli参数μ_v ∈ [0,1]:

π(r=1|x̄=v) = μ_v

#### 推动和对偶KAD

一方面,Fei et al.(2025)的推动方法对应于使用以下拒绝分布:

π(r=1|x̄=v) = ⟦max_w p_w < λ⟧

其中λ ∈ [0,1]是分布置信度的阈值超参数。有趣的是,这个拒绝标准不依赖于初始草稿令牌v,即:

π(r=1|x̄=v) = π(r=1)

这意味着拒绝决策是分布级决策,*即*,我们拒绝采样分布**p**,而不是精确采样的令牌。

另一方面,背包近似推延(KAD)的对偶版本(Hammal et al., 2025)对应于使用以下分布:

π(r=1|x̄=v) = ⟦p_v < λ⟧

在这种情况下,如果**p**对v的概率不够确定,令牌v被拒绝。注意,然而,这两个拒绝标准都是确定性的,即:

π(r=1|x̄=v) ∈ {0,1},∀v ∈ V

#### 隐式奖励

隐式奖励对齐(Mitchell et al., 2024;Liu et al., 2024;Li et al., 2025)依赖于从小型对齐模型中提取令牌级奖励组件,作为q*/q的比率,这代表了q*在对齐过程中学到的知识。然后使用这个部分奖励来用提取的对齐信息偏向**p**,构建一个新的对齐分布**s**,定义如下:

s_v = p_v · (q*_v)/(q_v·Z),其中Z = Σ_w p_w · (q*_w)/q_w

其中Z用于归一化,*即*,确保**s** ∈ △(|V|)。尽管这种方法似乎与推动和KAD不同,但以下命题表明它也可以简化为在我们的PGM中定义拒绝标准。

##### 命题1

令**p**、**q**和**q***是词汇上的概率分布,使得存在α ∈ [0,1]满足

∀v ∈ V:(s_v - p_v)/q*_v ≤ α ≤ s_v/q*_v

或者,等价地,

∀v ∈ V:q*_v·α ≤ s_v ≤ p_v + q*_v·α (1)

那么,拒绝分布定义为

∀v ∈ V:π(r=1|x̄=v) = (p_v + q*_v·α - s_v)/p_v

给出以下PGM分布:

∀v ∈ V:π(x̄=v) = s_v

证明在附录A中给出。

命题1给出了**p**、**q**和**q***的充分条件,使得隐式奖励分布**s**可以在我们的PGM中转换,这简化为等式1中的"包围"约束。注意这个命题表明在某些情况下,我们的PGM无法代表分布**s**。图2展示了要么满足要么不满足条件的分布。

## 3 什么是好的拒绝标准?

表1:不同模型和方法给出的精度。每列的最佳结果以粗体显示,第二好的结果以下划线显示。

推动和KAD仅依赖**p**做出拒绝决策。这基于以下假设:回退分布是一个专家分布,其错误可以忽略(Chow, 1970)。然而,在实践中,q*可能会表现不如**p**。从q*考虑信息可以产生更丰富的拒绝决策。此外,仅依赖**p**的绝对置信度是评估生成质量的坏标准(Dinh and Niehues, 2025)。

相似文章

置信度感知对齐让推理型大语言模型更加可靠

arXiv cs.AI

本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。

成对参考对齐作为模型级别的序数可观测变量

arXiv cs.CL

本文形式化了成对参考对齐作为模型级别的序数可观测变量,定义了一个统计量来衡量模型评分与参考偏好分布之间的一致性,并给出了有限样本估计量以及在Qwen2.5模型和RewardBench上的实证研究。

当自回归一致性损害安全对齐时

arXiv cs.LG

本文分析了大型语言模型安全对齐为何脆弱,将其归因于“自回归一致性”——即下一个词元预测倾向于扩展当前响应轨迹——这导致对齐更新集中在早期词元上。作者提出了一种利用这一特性的“随机插入攻击”,并设计了一个对抗性安全对齐框架来应对。

ARBITER: 推理轨迹盆地与测试时采样中的多数投票失败

arXiv cs.LG

本文发现,语言模型在测试时采样中的推理轨迹会聚集成‘推理盆地’,当主导盆地错误时,会导致多数投票失败。本文提出了ARBITER,一种与模型无关的方法,利用模型自身输出和隐藏状态中的保守加性证据,无需外部数据即可提高准确性。