FineSteer: 大规模语言模型推理时细粒度控制的统一框架

arXiv cs.CL 论文

摘要

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

arXiv:2604.15488v1 公告类型:交叉 摘要: 大规模语言模型(LLM)常常表现出不良行为,如安全违规和幻觉问题。虽然推理时控制提供了一种无需更新模型参数就能调整行为的成本效益方法,但现有方法由于采用了刚性的一刀切设计和自适应能力有限,往往无法同时达到有效、保持效用和训练高效。在本工作中,我们提出了 FineSteer,一个新颖的控制框架,将推理时控制分解为两个相辅相成的阶段:条件控制和细粒度向量合成,允许对何时以及如何控制内部表示进行细粒度控制。在第一阶段,我们引入子空间引导条件控制(SCS)机制,通过避免不必要的控制来保持模型效用。在第二阶段,我们提出混合控制专家(MoSE)机制,用于捕捉所需控制行为的多模态特性,生成特定查询的控制向量以提高有效性。通过 SCS 和 MoSE 的精心设计,FineSteer 在通用查询上保持稳健性能,同时以训练高效的方式自适应地优化针对目标输入的控制向量。在安全性和真实性基准上的大量实验表明,FineSteer 在整体性能上超越最新方法,以最小的效用损失实现更强的控制性能。代码可在 https://github.com/YukinoAsuna/FineSteer 获取
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:30

# FineSteer: 大语言模型中细粒度推理时引导的统一框架
来源: https://arxiv.org/html/2604.15488

###### 摘要

大语言模型(LLM)经常表现出不期望的行为,如安全违规和幻觉。虽然推理时引导提供了一种经济高效的方式来调整模型行为而无需更新其参数,但现有方法往往因其僵化的"一刀切"设计和有限的自适应能力而无法同时实现有效性、效用保留和训练效率。在本工作中,我们提出 FineSteer,一个新颖的引导框架,将推理时引导分解为两个互补阶段——条件引导和细粒度向量合成——允许对*何时以及如何*引导内部表示进行细粒度控制。在第一阶段,我们引入*子空间引导条件引导(SCS)*机制,通过避免不必要的引导来保留模型效用。在第二阶段,我们提出*混合引导专家(MoSE)*机制,该机制捕捉所需引导行为的多模态特性,并为改进的有效性生成查询特定的引导向量。通过 SCS 和 MoSE 中的量身定制设计,FineSteer 在保持一般查询的稳健性能的同时,以训练高效的方式为目标输入自适应优化引导向量。在安全性和真实性基准上的广泛实验表明,FineSteer 在整体性能上超过了最先进的方法(例如,在 TruthfulQA 上相对 Llama-3 提升 7.6%),在效用损失最小的情况下实现更强的引导性能。代码可在 https://github.com/YukinoAsuna/FineSteer 获取。

FineSteer: 大语言模型中细粒度推理时引导的统一框架

††脚注:⋆等同贡献

## 1 引言

大语言模型(LLM)已经推进了广泛的任务,从代码生成到多步骤基于智能体的决策制定,革新了应用。然而,它们的潜在负面影响仍然是一个重大关切。特别是,不安全的输出和幻觉响应(即缺乏背景依据的响应)引起了广泛关注,因为它们可能传播错误信息、强化有害偏见,甚至诱导不安全行为。缓解这些问题并非平凡,因为传统方法如微调需要大量计算资源,并可能导致灾难性遗忘。

最近,推理时引导已成为一个有前景且经济高效的解决方案,它在推理过程中调整模型的内部表示而不更新参数。通过对现有引导方法的系统评估,我们识别了两个关键限制。首先,现有方法通常对所有输入查询应用通用引导向量,无法适应单个查询的细微差别。其次,这种"一刀切"方法在有效性和效用之间造成了明显的权衡,因为激进的引导可能会降低模型在一般查询上的有用性。例如,设计用于加强对恶意查询拒绝行为的方法(如 RV),也会拒绝大量良性查询。虽然最近的基于学习的方法(如 AlphaSteer)通过自适应应用引导取得了进展,但它们仍面临粒度、泛化性和效率方面的显著挑战。例如,虽然 AlphaSteer 通过学习*何时*引导来避免固定干预,但它缺乏关于*如何*引导的细粒度校准。具体来说,它对所有需要干预的查询应用几乎相同的引导向量,而没有考虑与不同越狱威胁相关的不同修正需求。此外,学习其条件矩阵需要在 12,000 个一般查询上进行广泛训练,这限制了其在数据或时间受限设置中的实际适用性。

理想情况下,缓解策略应该是有效的、效用保留的和训练高效的。然而,由于现有引导方法的僵化"一刀切"设计和有限的自适应能力,没有一种方法能够同时满足这些要求。值得注意的是,在受约束的设置下,仍然不清楚在多种查询中*何时以及如何*引导内部表示,特别是那些在观察分布之外的查询。此外,所需引导的固有多模态特性对学习既查询特定又经过良好校准的干预构成了根本挑战。为了应对这些挑战,我们提出 *FineSteer*,一个统一框架,将推理时引导分解为两个互补阶段:条件引导(第 1 阶段)和细粒度向量合成(第 2 阶段)。这种分解允许对*何时以及如何*引导内部表示进行细粒度控制。

在第一阶段,我们引入子空间引导条件引导(SCS)机制,通过避免不必要的引导来保留模型效用。与依赖大量通用数据预测未见查询是否需要干预的先前方法不同,SCS 使用一小组标记的*需要干预(IR)查询*构建紧凑子空间。通过使用能量得分测量查询与该子空间的关联性并与学习的阈值进行比较,SCS 可以可靠地确定何时应应用引导,从而保留一般查询上的性能。在第二阶段,我们提出混合引导专家(MoSE)机制,它合成查询特定的引导向量以提高异构失败模式下的有效性。由于不期望的行为可能源于多种因素(例如歧义或相互冲突的证据),MoSE 通过利用一组多样化的引导专家来捕捉所需引导的多模态特性,每个专家专门从事不同的干预方向。与标准 MoE 框架不同,MoSE 将每个专家建模为*原型引导向量*,并通过无训练的、查询特定的注意力动态聚合它们,实现有效但训练高效的干预。由于引导专家可能无法捕捉所有信息,MoSE 进一步学习轻量级模块以提供残差细化。这通过沿着由提取的引导向量跨越的空间的主要分量调整少数几个系数来实现,该空间称为*引导基空间*。

通过 SCS 和 MoSE 中的量身定制设计,FineSteer 在保持一般查询的稳健性能的同时,以训练高效的方式为目标输入自适应优化引导向量。在本工作中,我们在幻觉和安全性基准上进行了广泛的实验,证明 FineSteer 的每个组件都对其整体性能有贡献。我们的贡献总结如下:

- • 我们提出 FineSteer,一个统一框架,将推理时引导分解为条件引导和细粒度向量合成的两个互补阶段,从而能够对何时以及如何引导内部表示进行细粒度控制。
- • 我们引入子空间引导条件引导和混合引导专家机制,这些机制包含量身定制的设计以增强引导的三个关键方面。
- • 我们在安全性和真实性基准上进行广泛实验,表明 FineSteer 在整体上优于最先进的引导方法,同时在一般查询上保持高效用,计算开销最小。

## 2 相关工作

### 2.1 LLM 中的越狱

越狱攻击引导 LLM 生成不安全或受限的行为。攻击方法已从白盒设置中的基于梯度的优化方法演变为启发式进化算法方法,再到利用强化学习智能体的基于训练的方法。快速演变的攻击方法带来了对自适应、有效和高效防御方法的迫切需求。

### 2.2 LLM 中的幻觉

LLM 容易产生幻觉,生成可能听起来合理但在事实上不正确或不受输入背景支持的输出。虽然基于规则和基于 RAG 的防御可以缓解一些幻觉,但它们范围有限,可能会带来新的风险,如语料库中毒。这强调了通过模型对齐增强 LLM 固有抵抗幻觉能力的迫切需求。

### 2.3 推理时引导

基于微调的方法(如 RLHF、DPO)用于安全/真实性对齐可以改进模型输出,但成本高且对自适应攻击灵活性不足。推理时引导通过在推理期间直接修改隐藏激活,提供了对基于微调的对齐的轻量级替代方案。早期方法,如 CAA、ITI 和 RV,使用对比示例构建引导向量,并在所有查询中均匀应用。一些方法进一步通过引入条件分量或搜索改进向量来完善激活引导。然而,它们依赖于手工制作的引导向量,在很大程度上忽视了查询特定的细微差别。最近的方法寻求通过基于学习的技术改进精度和自适应性。例如,TruthFlow 和 AlphaSteer 从各个表示中学习查询特定的引导向量。虽然这些技术标志着显著进步,但其范围仍限于越狱等孤立威胁。此外,这些方法通常依赖于导致效用损失和粗粒度的启发式框架,突出了对更有原则和自适应推理时引导方法的关键需求。

## 3 推理时引导概述

##### 引导机制。

对于包含 m 个输入令牌的提示 p,其在 LLM 的第 L 层的输入激活形成矩阵 **H**^L ∈ ℝ^(m×d),其中 d 是隐藏维度,第 i 个行 (**h**_i^L)^⊤ 对应第 i 个令牌的嵌入。最后令牌的激活是 **h**^L_last := **h**^L_m ∈ ℝ^d,令牌之间的平均激活是 **h̄**^L := (1/m)∑_{i=1}^m **h**^L_i ∈ ℝ^d。对于任何提示 p,我们可以使用运算符 **P**^L(·) 在第 L 层提取其 d 维池化嵌入,定义为 **P**^L(p) = **h**^L_last 或 **P**^L(p) = **h̄**^L,对所有提示的选择保持一致。

对于训练数据集 **D** 中的每个需要干预的查询,我们构建偏好输入 q ⊕ r_+ (即偏好响应)和不期望输入 q ⊕ r_-(即不期望响应),其中 ⊕ 表示连接。然后,在第 L 层的每查询差异向量定义为:

**v**^L_diff(q, r_+, r_-) = **P**^L(q ⊕ r_+) - **P**^L(q ⊕ r_-). (1)

通过平均数据集 **D** 中的每查询差异向量,我们获得*全局引导向量*:

**v̄**^L = (1/|**D**|) ∑_{(q,r_+,r_-) ∈ **D**} **v**^L_diff(q, r_+, r_-) ∈ ℝ^d. (2)

在推理期间,对于每个查询 q,我们首先在第 L 层提取其池化激活为 **ĥ**^L_q = **P**^L(q)。给定 **ĥ**^L_q,映射 f: ℝ^d → ℝ^d 产生引导向量 **v**^L = f(**ĥ**^L_q),可能是不依赖于 **ĥ**^L_q 的全局引导向量,也可能是依赖于 **ĥ**^L_q 的查询特定引导向量。然后通过以强度 λ 对所有令牌广播 **v** 来引导第 L 层的激活:

**H**^L ← **H**^L + λ **v**^L. (3)

为简洁起见,我们在后续讨论中省略上标 L。

## 4 动机

##### 引导目标和效用约束。

一个理想的引导向量应该...

相似文章

MidSteer: 用于引导生成模型的最优仿射框架

arXiv cs.LG

介绍MidSteer,一个用于生成模型中概念引导的理论框架,通过为LLMs和视觉扩散模型中的概念引导、擦除和切换提供最优仿射变换,弥合了经验成功与理论理解之间的差距。

超越引导向量:用于推理时干预的基于流的激活引导

arXiv cs.CL

本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。