干预还是不干预:使用概率模型融合引导推理时对齐

arXiv cs.LG 论文

摘要

本文介绍了BlendIn,一个推理时对齐框架,它使用概率模型融合来评估指导可靠性并按比例加权模型贡献,通过避免有害干预实现了高达50%的性能提升。

arXiv:2606.11201v1 公告类型:新\n摘要:大语言模型的广泛部署使得模型对齐成为必要,以便新训练的模型能够安全有效地响应用户指令。在各种方法中,推理时对齐通常更便宜,因为它只在输出生成期间进行干预(即提供指导)。现有方法应用从某些对齐模型中提取的指导,而没有适当评估其可靠性。然而,我们的系统评估显示,指导有效性在不同模型之间差异很大;由于无效指导会导致进一步混乱,从而引发更多干预,因此过度的干预通常表明性能较差。为了使干预更有效、更高效,我们引入了BlendIn,这是一个推理时对齐框架,它将二元决策转变为创建融合两个模型知识的混合分布。BlendIn通过执行质量感知对齐并根据可靠性按比例加权每个模型的贡献来稳定推理时对齐。与现有工作相比,它保留了有益的指导,同时降低了不可靠建议的权重。BlendIn为失配指导提供了诊断信号和缓解策略,在具有挑战性的模型对上实现了持续且高达50%的性能提升。我们的代码可在 https://github.com/DecayingSeart/BlendIn 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:44

# 干预与否:利用概率模型融合引导推理时对齐
**来源:** https://arxiv.org/html/2606.11201

Jin Gan, Xin Li, Jun Luo  
南洋理工大学计算机与数据科学学院,新加坡  
\{jin010, l.xin, junluo\}@ntu.edu.sg

###### 摘要

大型语言模型的广泛部署使得模型对齐成为必要,以确保新训练的模型能够安全有效地响应用户指令。在各类方法中,推理时对齐通常成本更低,因为它仅在输出生成期间进行干预(即提供引导)。现有方法会从某些对齐模型中提取引导,并未适当评估其可靠性。然而,我们的系统评估表明,引导的有效性在不同模型间差异巨大;由于无效的引导会导致进一步的混淆,从而引发更多干预,由此产生的过度干预通常预示着性能不佳。为了使干预更有效、更高效,我们引入了 BlendIn,这是一个推理时对齐框架,它将二元决策转变为创建融合两个模型知识的混合分布。BlendIn 通过执行质量感知对齐,并根据可靠性按比例权衡每个模型的贡献,从而稳定了推理时对齐。与现有工作相比,它在保留有益引导的同时,降低了不可靠建议的权重。BlendIn 为对齐错误的引导提供了诊断信号和缓解策略,在具有挑战性的模型对上实现了持续且高达 50% 的性能提升。我们的代码位于:https://github.com/DecayingSeart/BlendIn。

## 1 引言

参考图注 (a) 参考图注 (b)
图 1:(a) 推理时对齐中质量盲点的概述及我们的解决方案。左图:现有方法做出二元接受/拒绝决策,对所有引导一视同仁,不评估其质量——同样接受有益(绿色)和有害(红色)的建议。中图:这导致了干预悖论:不可靠的引导引发级联故障,需要更多干预,从而在干预率和性能之间形成负相关。右图:BlendIn 通过质量感知分布融合解决了这一问题,根据可靠性对引导进行比例加权,而不是做出二元决策。(b) 来自不可靠引导的级联故障。左图:当不可靠的引导建议一个错误词元(‘+’ 而非 ‘-’)时,二元接受会将该错误传播到后续步骤,产生不确定性,从而触发更多干预(28% 的干预率),并产生错误答案。右图:可靠的引导提供正确的建议,能够以最小的干预(12%)实现准确的生成。现有的二元方法无法区分这些情况,尽管结果截然相反,却对两种引导一视同仁。

大型语言模型的有用性和安全性很大程度上取决于它们遵循用户指令的对齐程度 (Fei et al., 2025)。这传统上通过微调方法实现,其中必须为每个新训练的模型单独执行对齐 (Ouyang et al., 2022; Rafailov et al., 2023),这会产生大量的计算成本。这种低效率促使了推理时对齐的发展,它利用对齐模型或其提取的信号 (Fei et al., 2025; Liu et al., 2024; Wang et al., 2024) 作为引导模型,在输出生成期间对齐未对齐模型 (作为基座模型) (Wang et al., 2024; Fei et al., 2025; Liu et al., 2024),从而避免了昂贵的重新训练。现有的推理时对齐工作以不同形式的信号提供引导,例如词元建议、价值分数或激活引导 (Fei et al., 2025; Wang et al., 2024; Liu et al., 2024)。然而,这些方法缺乏评估引导本身是否可靠的机制。它们的设计隐含地假设所有引导都是有益的——我们的系统分析反驳了这一假设。在九个模型 (Team et al., 2025, 2024; Grattafiori et al., 2024; Yang et al., 2025) 和六个数据集 (Cobbe et al., 2021; Hendrycks et al., 2021b, a; Lin et al., 2022; Clark et al., 2018; Lin et al., 2023) 上,我们观察到引导有效性的巨大差异:一些模型组合成功,而另一些则灾难性地失败。关键的是,干预率过高的模型对系统性表现更差,而非更好。这种反直觉的模式揭示了引导的有效性在不同的模型组合之间有着根本性的差异。

为什么会发生这种情况?当基座模型在生成过程中遇到难以处理的、预测出现偏差或有害的位置时,引导模型可能同样在这些位置上难以应对——它们会对接下来应该出现什么词元做出错误的预测。结果,这些模型提供了错误或有害的建议,导致输出偏差,进而触发更多干预。由于现有方法无法区分有益建议和有害建议,它们表现出一个基本问题:质量盲点。如果没有预测或缓解这一问题的机制,对齐的成功就必须依赖于昂贵的试错测试,从而限制了推理时对齐的实际部署。参见图 1 的概述和图 1 的示例。

这些观察结果表明,有效的推理时对齐需要方法的转变。现有方法的质量盲点导致二元接受/拒绝决策,这些决策无法表达部分信任或选择性整合。当引导不可靠时,二元方法必须选择接受有害建议(降低性能)或拒绝所有引导(失去潜在收益)。两者都不令人满意。我们认为,质量感知的整合至关重要:方法必须在每个干预位置评估引导的可靠性,并按比例整合两个模型的知识,而不是做出全有或全无的决定。这实现了二元方法所缺乏的关键能力。首先,它保留了引导中有益的部分,同时降低了不可靠部分的权重。其次,它同时利用了两个模型的部分知识。第三,它优雅地处理了不同程度的引导可靠性。

基于这些见解,我们提出了 BlendIn,一种基于分布融合的质量感知推理时对齐方法。在基座模型对预测表现出低置信度的每个位置,BlendIn 通过根据各自确定性使用自适应权重融合来自引导模型和基座模型的完整概率分布来评估引导质量。我们并非做出二元决策,而是使用贪婪选择从混合分布中采样,允许两个模型按比例贡献。这种软整合有效地过滤了错误或有害的干预,同时保留了有益的引导,解决了现有方法中的质量盲点问题。我们的方法在具有挑战性的高干预率模型对上实现了持续且最高达 50% 的改进,证明了其有效性和鲁棒性。

我们的贡献包括:
- 对推理时对齐中的质量失败进行了系统性表征,识别出过度干预率与整体性能之间的负相关关系。
- 提出了 BlendIn,一种推理时对齐稳定化方法,通过软分布融合来诊断和缓解不可靠的引导。
- 在挑战性的过度干预模型对上持续改进性能,最高提升达 50%。

我们的工作将推理时对齐从一项经验上看似有希望但可预测性不足的技术,转变为一种具有原则性诊断信号和有效缓解对齐错误引导的技术。

本文的其余部分组织如下。第 2 节简要回顾相关工作。第 3 节介绍问题表述。第 4 节讨论我们方法的细节。第 5 节报告实验结果。最后,第 6 节总结全文。

## 2 相关工作

推理时对齐方法利用来自对齐模型的信号引导未对齐模型,无需更新参数。NUDGING (Fei et al., 2025) 使用投机解码 (Leviathan et al., 2023; Chen et al., 2023),每当基座模型的 top-1 概率低于阈值时,引导模型就会提出词元。IVG (Liu et al., 2024) 应用一个在对齐模型输出上训练的价值函数,从基座模型中选择得分最高的词元候选。InferAligner (Wang et al., 2024) 在检测到有害查询时,使用从对齐模型提取的向量选择性地偏移基座模型的激活。

虽然这些近期方法在机制上有所不同(词元提议、价值评分和激活修改),但它们共享一个共同的设计原则:将引导视为统一有益的。然而,它们缺乏评估特定引导模型是否真正为基座模型提供对齐建议的机制。这个问题尚未得到表征:对齐成功是否可以通过某个易于获取的属性来预测,还是每个模型组合都必须在对完整基准上进行昂贵的实证测试?我们能否提前消除这种引导质量失败?如果没有对这些问题的系统分析,实践者就缺乏快速检测失败的诊断信号和缓解失败的原则性策略。

## 3 问题陈述

### 3.1 预备知识

推理时对齐可以在输出生成期间使用引导模型对齐基座模型。这可以通过投机解码实现 (Leviathan et al., 2023; Chen et al., 2023),其中对齐模型提出词元,未对齐模型根据不确定性阈值对它们进行验证 (Fei et al., 2025)。形式上,在每个生成步骤 \(t\),基座模型首先检查自身的置信度。引导仅在不確定的位置触发:
1. **不确定性检查**:计算 \(u = \max_w P_{M_b}(w | x_{<t})\),其中 \(P_{M_b}\) 是基座模型的概率。如果 \(u < \tau\)(不确定性阈值),则触发引导。
2. **引导提议**:引导模型提出 \(w^* = \arg\max_w P_{M_g}(w | x_{<t})\)。
3. **干预:** 基座模型使用 \(w^*\) 作为当前步骤的输出。

### 3.2 质量盲点

现有方法隐含地假设引导总是有益的。为了测试这一点,我们对九模型六数据集进行了大规模研究。我们的评估揭示了根本不同的结果:一些引导模型提供准确有用的建议,而另一些则提供具有误导性或有害的建议。关键的是,我们观察到干预率和性能之间的负相关关系:需要过度干预的模型对系统性表现更差。例如,在 GSM8K 上,如 Figure 2 所示,当干预率在 10%–20% 范围内时,存在一个表现良好的区域,但超过 20% 的干预率会导致性能持续下降。这发生在 20% 的测试案例中,而 50% 的案例落在中间区域。这种负相关关系一直存在于我们评估的所有配置中。这一发现表明,糟糕的引导质量不仅未能提供帮助,还通过引入额外的误差积极损害了生成过程。

### 3.3 问题定义和动机

**定义 1(推理时对齐质量失败)。** 设 \(M_b\) 是未对齐的基座模型,\(M_g\) 是对齐后的引导模型。让 \(\mathcal{D}\) 是一个用户指令数据集。我们将质量失败定义为对齐后性能 \(A(M_b, M_g; \mathcal{D}) < \min(A(M_b; \mathcal{D}), A(M_g; \mathcal{D}))\) 的情况,其中 \(A\) 表示指令跟随准确率。

**动机:** 推理时对齐通过高质量引导编辑基座模型输出来引入有益干预。然而,引导质量差异很大,促使形成混合方法。不完美的二元接受/拒绝决策无法区分有用和有害的引导。有必要根据可靠性对引导进行加权,为两种模型的知识按比例分配空间。我们开发了一种用于推理时对齐的软分布融合方法。

## 4 方法:BlendIn

BlendIn 提供了对现有推理时对齐方法的直接修改。它通过替代硬性二元决策来解决质量盲点问题:在每个干预位置,它在融合了引导模型和基座模型分布的混合分布上进行采样。关键思想是每个位置的融合权重根据模型在该位置预测的确定性自适应地变化。这确保了可靠的引导被强调,而不可靠的引导被自然减弱。

### 4.1 自适应加权分布融合

在每个干预位置,给定输入 \(x\),两个模型定义为:基座模型 \(M_b\),概率为 \(P_b(w | x)\),引导模型 \(M_g\),概率为 \(P_g(w | x)\)。我们定义混合分布:
\[
P_{\text{blend}}(w | x) = \alpha \cdot P_g(w | x) + (1 - \alpha) \cdot P_b(w | x)
\]
其中 \(\alpha\) 是自适应权重。我们使用基于模型的 top-1 概率的确定性度量来计算 \(\alpha\)。设 \(u_b = \max_w P_b(w|x)\) 和 \(u_g = \max_w P_g(w|x)\)。我们定义:
\[
\alpha = \frac{u_g}{u_b + u_g}
\]
这个公式为更确定的模型分配更高的权重。与广泛使用的自动混合策略一致,它将引导比例与其相对于基座模型的置信度联系起来。我们引入了一个可选权重缩放因子 \(c\):
\[
\alpha = \frac{c \cdot u_g}{c \cdot u_g + (1-c) \cdot u_b}
\]
通过调整 \(c\),用户可以在不同任务上平衡两种模型。当 \(c=0.5\) 时,\(c\) 被取消,所以 \(\alpha = u_g / (u_b + u_g)\)。我们默认使用 \(c=0.5\),而标记为 \(c\neq0.5\) 的情况需要手动调整。我们已经验证了 BlendIn 在任务之间受益于手动调整 \(\alpha\),类似于 \(\tau\)。

### 4.2 选择策略

使用混合分布 \(P_{\text{blend}}\),我们应用贪婪选择:\(w^* = \arg\max_w P_{\text{blend}}(w | x)\)。由于混合分布中两个模型的贡献具有权重,贪婪选择自然偏向于权重较高的模型,这符合质量感知设计的直觉。

### 4.3 整体算法

算法 1 提供了 BlendIn 的伪代码。

**算法 1 BlendIn:质量感知推理时对齐**

1. **输入:** 基座模型 \(M_b\),引导模型 \(M_g\),提示 \(x\),最大生成长度 \(T\),不确定性阈值 \(\tau\),融合权重 \(\alpha\) 模式(手动或自动)
2. **输出:** 生成的响应 \(y = (w_1, w_2, ..., w_T)\)
3. **对于** \(t = 1\) 到 \(T\) **执行**
4. 计算基座不确定度 \(u = \max_w P_b(w | x \oplus y_{<t})\)
5. **如果** \(u < \tau\) **则** ▷ 低置信度,需要干预
6. **如果** \(\alpha =\) 自动 **则**
7. \(u_b \leftarrow \max_w P_b(w | x \oplus y_{<t})\)
8. \(u_g \leftarrow \max_w P_g(w | x \oplus y_{<t})\)
9. \(\alpha \leftarrow u_g / (u_b + u_g)\) ▷ 自适应权重
10. **结束如果**
11. **对于所有** \(w \in \mathcal{V}\) **执行**
12. \(P_{\text{blend}}(w) \leftarrow \alpha \cdot P_g(w | x \oplus y_{<t}) + (1-\alpha) \cdot P_b(w | x \oplus y_{<t})\)
13. **结束对于**
14. \(w_t \leftarrow \arg\max_w P_{\text{blend}}(w)\) ▷ 从混合分布中贪婪选择
15. **否则**
16. \(w_t \leftarrow \arg\max_w P_b(w | x \oplus y_{<t})\) ▷ 无需引导的标准生成
17. **结束如果**
18. **结束对于**
19. **返回** \(y = (w_1, w_2, ..., w_T)\)

## 5 实验

### 5.1 设置

**模型和数据集。** 我们使用九个开源语言模型:Gemma-2B (Team et al., 2024),Llama-3B/8B (Grattafiori et al., 2024),Qwen2.5-1.5B/3B/7B (Yang et al., 2025),以及它们的指令调整版本。我们评估了六种推理数据集:GSM8K (Cobbe et al., 2021),MATH (Hendrycks et al., 2021a),MMLU (Hendrycks et al., 2021b),TruthfulQA (Lin et al., 2022),HellaSwag (Zellers et al., 2019),和 ARC-Challenge (Clark et al., 2018)。有关模型类型的详细信息,请参见附录 A.1。

**基线。** 主要基线包括:(1) **基座模型**,没有对齐干预的基座模型。(2) **引导模型**,表现良好的对齐模型。(3) **NUDGING** (Fei et al., 2025),推理时对齐的 SoTA 方法。(4) **IVG** (Liu et al., 2024),改进的价值引导。对于 IVG,我们使用引导模型的评分,但仅在干预位置应用,这与 NUDGING 保持一致。我们还在附录 A.3 中提供了与基于离散过滤的基线的比较。

**指标。** 我们报告每个数据集的准确率。干预率定义为触发干预的位置比例。

### 5.2 主要结果

表 1:在 GSM8K 上模型对之间的准确率(%)比较。每行代表一个基座模型(行)被引导模型(列)引导。`Base` 显示基座模型的零样本性能。`IVG` 使用引导模型的评分,但干预率与 `NUDGING` 相同。BlendIn 在大多数对合中优于 NUDGING,尤其是在高干预对合(灰色高亮)上实现了高达 50% 的提升。NUDGING 对 5/9 对合有效,但 BlendIn 将成功率提高到 7/9,且未降低对合性能。

本表显示混合结果。它包含模型对:Gemma-2B → Llama-3B,Gemma-2B → Llama-8B,Llama-3B → Gemma-2B,Llama-3B → Llama-8B,Llama-8B → Gemma-2B,Llama-8B → Llama-3B,Qwen-3B → Llama-3B,Qwen-3B → Llama-8B,Qwen-7B → Llama-3B。每行包括:Base,NUDGING (interv), IVG (interv), BlendIn (interv)。关键数据点:对于高干预对合(如 Llama-3B → Gemma-2B),NUDGING 得到 54.06% 但对于 Qwen-3B → Llama-8B 得到 60.53%,这几乎未改善;BlendIn 得到 68.79%。对于低干预对合(如 Llama-8B → Gemma-2B),BlendIn 与 NUDGING 相当或略好。

### 5.3 主要发现

图 2:GSM8K 上的性能与干预率刻度。左:基座模型性能(紫色菱形)位于 46%–48% 左右。引导模型性能(灰色方块)位于 46%–52% 左右,Llama-8B 指令调整版达到约 68%。带标签的线代表配对对齐的组合。右:BlendIn 特别在前景化高干预模型对上比 NUDGING 有显著提升。Y 轴是相对性能变化。

表 2:跨数据集的准确率比较(%)。报告了主要基线(NUDGING vs BlendIn)在 MATH、MMLU、TruthfulQA、HellaSwag、ARC-Challenge 上的结果。BlendIn 在大多数数据集上优于 NUDGING,在适当情况下提升高达 50%。

表 3:MATH 上 GPT-2 大小模型的结果。尽管 GPT-2 是比我们主要实验更旧、更小的架构,但 BlendIn 依然提供了性能改进。

### 5.4 消融和诊断分析

**图 3:诊断混合权重 \(\alpha\)。** 我们绘制高干预对合 Qwen→Llama 上三个测试集的混合权重 \(\alpha\) 直方图。高频区显示低 \(\alpha\) 值,表明在 BlendIn 检测到引导不可靠时,自动降低引导模型的权重。低频率的 Bin 以宽箱线图显示。

**表 4:\(\alpha\) 和 \(\tau\) 消融。** 我们展示了两种模式的 BlendIn:\(\alpha\)=Auto 和 \(\alpha\)=Fixed(固定为 0.5),以及对 Qwen-3B→Llama-3B 在数学任务上的不同 \(\tau\) 值。结果:在 MATH 上,\(\alpha=0.7, \tau=0.4\) 达到最高 48.89%,而 GSM8K 上 \(\alpha=0.7, \tau=0.3\) 达到 75.50%。变化表明不需要跨数据集的单一最优设置。

**图 4:\(\tau\) 的影响。** 在不同模型对上,改变 \(\tau\) 的四个值(0.3, 0.4, 0.5, 0.6)以及基座模型的性能。Y 轴是准确率。大多数模型对在 \(\tau=0.4\) 左右稳定,对于高干预场景,如 Qwen→Llama,较高的 \(\tau\) 略有收益。

## 6 结论

推理时对齐提供了快速有效的对齐机会,但实现其潜力需要了解什么时候应该以及什么时候不应该对齐。我们发现了一个关键但未被认识到的现象:引导并不可靠,尤其是在需要干预的位置;这种不可靠性创造了包括过多干预的失败模式。为了解决这个问题,我们提出了 BlendIn,一个用于推理时对齐的稳健且质量感知的框架,通过分布融合。BlendIn 利用两个模型的全部分布进行自适应插值,权衡它们的贡献。它实现了有效的对齐稳定化,尤其是在现有的推理时对齐失败的高干预模型对上。我们的工作为诊断引导失败和稳健对齐提供了新的能力,推动了可靠且可部署的 LLM 对齐。

**局限性**
- 我们的方法计算开销是现有方法的两倍,因为它需要两个模型的全分布。然而,相对于微调,它仍远更快。
- 在不同任务上可能需要手动调整权重,这需要一些域内验证数据。
- 我们的方法主要针对推理时对齐场景;在表示空间中可能还有针对推理时效应的更好方法。

## 附录 A

### A.1 实验细节

**模型配置。** 我们使用了来自 Gemma、LLaMA、Qwen 基础模型和指令调整模型的对齐。X → Y 表示基础模型 X 由指令调整模型 Y 引导。我们使用 vLLM 运行推理,并具有标准生成参数。

**数据集。** 我们在训练/验证分割上评估:从原始测试集中随机抽取 500 个样本(如果可用),对于具有推理多步的数据集(如 GSM8K, MATH),我们执行逐步生成。

**计算资源。** 所有实验均在单个 A100 GPU 上运行。

### A.2 九模型六数据集调查(来自 Section 3.2)

我们描述了用于识别质量盲点的大规模调查。我们配对九个模型(三组基础 + 指令),得到 81 个可能的引导对合(\(9 \times 9\),忽略自配对)。我们评估每个对合在六个数据集上的性能和干预率。平均而言,在衡量有效性的四类中,我们发现大约 20% 的对合表现出高干预(>20%),且性能显著低于引导模型基线。这些失败模式在具有挑战性的数学推理和事实知识数据集(如 GSM8K, MATH, TruthfulQA)上更为普遍。

**词汇分布重叠分析。** 我们通过 Top-\(k\) 和 Top-\(p\) 重叠度量分析了基础模型和引导模型的词汇分布。在 9 个模型对合中,尽管重叠大小(在 0.2–0.7 之间)随 \(k\) 变化,但我们观察到重叠与对齐性能之间没有一致的关系,表明基础模型和引导模型之间的词汇相似性并不能预测推理时对齐的成功。此外,所有 9 个对合的 Top-\(p\) 均 > 0.35(在所有情况中 \(p > 0.35\))。Top-\(p\)(0.9)在 9 个模型对合中的 8 个中产生更小或相等的重叠集,但并未揭示任何隐藏关系,确认了零发现对于重叠度量选择是稳健的。

### A.3 超参数敏感性

表 5:\(\tau\) 和 \(\alpha\) 在 Qwen→Llama(完整测试集)上的敏感性。两种超参数都显示出任务依赖效应,实证验证了推荐的任务特定手动调整。默认设置(\(\tau=0.4, \alpha=\text{Auto}\))在无需调整的情况下提供了跨任务的合理底线性能。

我们还对代表性的挑战性模型对 Qwen→Llama 和完整数据集进行了 \(\tau\)(不确定性阈值,已在之前关于推理时对齐的工作中建立和验证 (Fei et al., 2025))和 \(\alpha\)(混合权重,我们贡献之一)的敏感性分析。如表 5 所示,\(\tau\) 和 \(\alpha\) 都显示出任务依赖效应。这实证验证了我们推荐的手动调整 \(\alpha\) 以获得特定任务最佳性能。类似地,\(\tau\) 控制干预频率,受益于任务特定调整。观察到的变异反映了不同任务受益于不同的超参数设置。

### A.4 离散过滤基线

表 6:与结合了 Agreement Filter 和 Confidence Competition 的离散过滤基线的比较。对合缩写:LL=Llama→Llama, GG=Gemma→Gemma, QL=Qwen→Llama。Agreement Filter(AF)仅在引导词元出现在基座模型的 top-\(k\) 中时接受引导;Confidence Competition(CC)仅在引导模型 top-1 概率超过基座模型时接受引导。该基线显示结果不一致且大多差于 NUDGING,确认了软质量感知整合的必要性。我们的方法在所有配置下维持或改进了 NUDGING。

我们额外评估了结合了 Agreement Filter 和 Confidence Competition 的离散过滤基线。Agreement Filter 仅在引导词元出现在基座模型的 top-\(k\) 候选时接受引导;Confidence Competition 仅在引导模型 top-1 概率超过基座模型时接受引导。如表 6 所示,该基线表现不一致且大多差于主要基线 Nudging,确认了干预悖论无法通过离散接受规则解决,从而激发了我们的软混合方法。

### A.5 实用超参数调整指南

对于部署,我们推荐以下轻量级协议:
**默认设置:** 使用 \(\tau = 0.4\)(基座不确定性阈值)和 \(\alpha = \text{auto}\)(自适应混合)。这些无需调整即可提供合理性能。
**何时调整:** 如果初始结果显示干预率超过 20% 且性能不令人满意,在小验证集(100 样本)上优化超参数。
**调整协议:**
1. 固定 \(\tau = 0.4\),测试 \(\alpha \in \{0.3, 0.5, 0.7\}\)
2. 可选地围绕最佳值 ±0.1 细化 \(\alpha\) 以进一步提高性能
3. 选择最佳 \(\alpha\),然后测试 \(\tau \in \{0.3, 0.4, 0.5\}\)
每个配置在 100 个样本上大约需要 5 分钟,使得基本协议(步骤 1 和 3,共 6 次试验)可在 30 分钟内完成。粗粒度调整(步骤 1-3)捕获了大部分潜在收益,而更精细的调整(例如,\(\alpha \pm 0.05\))相对于验证成本产生递减的回报。

相似文章

FineSteer: 大规模语言模型推理时细粒度控制的统一框架

arXiv cs.CL

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

面向执行轨迹的推理时对齐框架

arXiv cs.LG

本文研究LLM智能体的框架设计,将其分解为任务拆解和引导执行,并展示了更精细的框架并非一致更好;它揭示了失败模式,并提出了部分框架的有效性。

超越引导向量:用于推理时干预的基于流的激活引导

arXiv cs.CL

本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。

模型能力主导:AIMO 3推理时优化的经验启示

Hugging Face Daily Papers

本论文分析了AIMO 3的推理时优化技术,发现模型能力优于提示工程和多样化采样策略。研究表明高温度采样已经能够最大程度地去相关化误差,为基于提示的改进留下了很少余地,并识别出单个模型pass@20与多数投票共识之间存在6分的选择损失差距。