大语言模型可信性无训练方法的系统研究

arXiv cs.CL 2026/04/20 04:00 论文

摘要

一项系统性研究，评估了改进大语言模型可信性的无训练方法，将方法分为输入、内部和输出级干预，同时分析可信性、实用性和鲁棒性之间的权衡。

arXiv:2604.15789v1 公告类型：新发布摘要：随着大语言模型(LLM)获得越来越多的关注并被部署到各个领域，其潜在风险——包括生成有害或偏见性内容、产生无根据的声明以及容易遭受对抗攻击——引起了广泛重视。为了实现快速且低成本的适配，无训练方法最近被提出作为后期训练对齐技术的成本效益替代方案。尽管取得了有希望的结果，但这些方法在文献中的评估不一致，覆盖的可信性维度有限，并可能引入不良副作用，如实用性下降和脆性增加。为了全面评估这些无训练方法的影响，我们系统地重新评估了现有无训练方法在各种可信性设置中的有效性，及其对实用性、鲁棒性和计算开销的影响。我们还根据这些方法在推理过程中对模型信息流的干预位置，将其分为三个级别（输入、内部和输出）。使用该分类法，我们对来自各个级别的多种代表性和有效方法进行了全面分析，涵盖不同的LLM族和模型规模。我们的分析突出了当前方法中的若干权衡和未解决的挑战。我们总结了现有文献中的关键发现和局限性，并提出了在无需额外训练的情况下平衡大语言模型可信性、实用性和鲁棒性的实践建议。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:29

# 无需训练方法构建可信赖大语言模型的系统研究
来源：https://arxiv.org/html/2604.15789
Wai Man Si, Mingjie Li, Michael Backes, Yang Zhang

CISPA Helmholtz Center for Information Security

###### 摘要

随着大语言模型（LLMs）受到越来越多关注并被部署到各个领域，它们潜在的风险，包括生成有害或有偏见的内容、产生无根据的主张以及容易受到对抗性攻击的漏洞，已经引起重大关注。为了实现快速且低成本的适配，无需训练的方法最近成为了训练后对齐技术的成本有效替代方案。尽管取得了有希望的结果，但这些方法在文献中的评估不一致，覆盖的可信赖性维度有限，并可能引入不理想的副作用，如实用性降低和脆弱性增加。为了全面评估这些无需训练方法的影响，我们退一步，系统地重新评估现有无需训练方法对各种可信赖场景的有效性及其对实用性、鲁棒性和计算开销的影响。我们还根据这些方法在推理过程中对模型信息流的干预位置，将其分为三个层级（输入、内部和输出）。使用这个分类法，我们对来自每个层级的各种代表性和有效方法在不同LLM家族和规模上进行了全面分析。我们的分析突出了当前方法中的多个权衡和未解决的挑战。我们总结了现有文献的关键发现和局限性，并提出了在不需要额外训练的情况下平衡LLMs可信赖性、实用性和鲁棒性的实用建议。

## 引言

在过去几年里，LLMs已被用于广泛的领域，从生产力工具到移动助手。然而，预训练的LLMs被证明会生成不期望的内容（如有害或有偏见的内容）[SCBSZ24,ZWKF23,PHSCRAGMI22,LCZNW23,WCPXKZXXDSTAMHLCKSL23]，并容易受到对抗性攻击[ZWKF23,LXCX23,CRDHPW23,SCBSZ24]的影响，由于它们的广泛使用和潜在风险，这已成为一个严重问题。缓解这些问题的常见策略是使用预期的结果重新训练或微调模型[OWJAWMZASRSHKMSAWCLL22,CLBMLA17]。但是，这些方法通常成本高且耗时。此外，收集具有相当数量的高质量训练数据很具有挑战性，进一步增加了难度。在许多实际场景中，用户需要快速将模型适配到新的威胁或不断变化的政策，例如LLMs需要在个性化代理中不断适应用户的习惯。此外，重新训练或微调通常需要大量的计算和数据资源，这并非总是可获得的。这些挑战促进了对不需要额外训练就能增强LLM可信赖性的方法的日益增长的兴趣。

在这些方法中，提示工程被证明特别有效且用户友好。例如，LLaMA-2报告中的系统提示[TMSAABBBBBBBCCCEFFFFGGGHHHIKKKKKKLLLLLMMMMMNPRRSSSSSTTTWKXYZZFKNRSES23]专门设计用于通过引导模型进行负责任的参与来增强安全性和准确性。此外，Self-Reminder[XYSCLCXW23]旨在通过在用户查询末尾采用带有提醒的系统提示来对抗"越狱"尝试[ZWKF23,LDXLZZZZL23,SCBSZ24,CLYSBZ25]。其他研究关注直接修改模型激活或参数以更精确地塑造模型行为。Turner等人[TTULMM23]提出激活加法(Activation Addition)，通过对比不同提示之间的激活来引导模型行为，在解毒反应方面展示了有效性。类似地，ProFS[UDHZH25]通过将模型参数编辑远离有毒子空间来减少有毒生成。除了提示和模型编辑之外，解码过程中的调整也显示出改进模型可信赖性的前景。例如，DoLA[CXLKGH24]通过对比来自各层的logits差异来修改输出分布，而ICD[ZCBS23]采用使用外部模型的类似方法。

总之，无需训练的方法使用户能够以经济有效和及时的方式调整模型行为以增强可信赖性。虽然这些方法可以增强可信赖性，但它们的有效性在不同论文中差异很大，且通常不一致，这在对它们的充分潜力和局限性的理解中留下了空白。例如，大多数现有方法设计用于单一目的（如改进安全性），仅在该属性上进行评估。这种狭隘的范围限制了对这些方法如何影响超出主要目标的模型可信赖性维度的见解。其次，实用性评估在不同研究中的结构和任务方向差异很大。一些方法在问答任务上进行评估，而另一些则在指令跟随任务上进行评估。这种差异在预期和实际模型性能之间造成了理解上的差距。第三，对模型鲁棒性的评估，包括抵抗对抗性攻击的能力、水印制品的存在以及过度拒绝的倾向，在现有研究中仍然零散且不一致。这些因素对于理解无需训练方法对真实应用的影响及其对用户体验的影响至关重要。

这项工作的动力来自对现有无需训练方法副作用的全面理解的缺乏。我们重新评估这些方法在增强可信赖性方面的有效性及其对模型实用性和鲁棒性的影响。此外，我们检查每种方法的计算成本以及同时使用多种方法的含义。首先，我们系统地根据推理过程中模型的信息流，将当前方法分为三个层级——输入、内部和输出。然后我们将八种代表性的无需训练方法应用于四个广泛使用的LLMs，参数从7B到70B，评估它们对可信赖性、实用性和鲁棒性任务的影响，以及它们的计算成本。我们的发现揭示了不同层级之间的一致权衡。输入层级方法倾向于减少不安全行为，但会恶化真实性、偏见，并增加过度拒绝。内部层级方法在改进真实性和减少偏见方面更有效，但通常以降低实用性为代价。输出层级方法在安全性和真实性方面提供适度改进，通常对实用性和鲁棒性的影响最小。通过这项调查，我们对无需训练方法及其在实践中的潜力和风险提供了更深入的理解。

本论文的贡献如下：

- •我们根据模型信息在推理过程中如何流动，将无需训练方法分为三个层级——输入、内部和输出。
- •我们对无需训练方法进行了跨多个任务的全面分析，评估它们的可信赖性、实用性和鲁棒性。
- •我们进一步调查了计算成本，以及结合多种方法时的潜在好处和劣势。
- •我们为在真实应用中部署这些技术提供了实用指导，包括选择最合适的方法以实现所需行为的建议。

## 无需训练方法

图1：分类法中使用的管道概览。
评估 | 模型 | 开发 | 部署 | 技术 | 标题 | 目标 | 安全性 | 偏见 | 真实性 | 实用性 | 鲁棒性 | 成本 | 开放 | 小 | 中 | 大 | 访问 | 日期 | 代码
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---
输入 | 提示 | Self-Reminder[XYSCLCXW23] | J | ✍ | U1–5 | AA | ✓ | ✓ | ✓ | ● | P | 2023.12 | ✓
 | | SAGE[DKWCCCH25] | J | D1,5 | U6–8 | AA | Time | ✓ | ✓ | ● | P | 2025.05 | ✓
 | 上下文演示 | In-Context Defense[WWLMW23] | J | D1–2 | U1,9 | AA | Time | ✓ | ✓ | ● | P | 2023.10 | ✓
 | | Goal[ZYKMWH24] | J | ✍ | U10–11 | AA | ✓ | ✓ | ✓ | ✓ | ● | P | 2023.11 | ✓
 | 多轮提示 | Self Defense[PHHPSCC24] | S | ✍ | AA | ✓ | ✓ | ● | P | 2023.08 | ✓
 | | IA[ZDZT25] | J | D1–2,16–17 | D15 | U10,6 | AA | Time | ✓ | ✓ | ✓ | ✓ | ● | P,F | 2024.01 | ✓
 | | BtB[KYC24] | J | ✍ | U9 | AA | ✓ | ● | F | 2024.02 |
内部 | 激活编辑 | ActAdd[TTULMM23] | S | D4 | ✓ | ○ | S | 2023.08 | ✓
 | | CAA[RGSTHT24] | S,T | ✍ | D15 | U6 | ✓ | ✓ | ○ | S | 2023.12 | ✓
 | | InferAligner[WZLTWRJQ24] | S | D1 | U7,29–32 | ✓ | ○ | S | 2024.01 |
 | | SEA[QZZKPC24] | B,T | D18 | D15 | U6–7,13–16 | ✓ | ✓ | ✓ | ○ | S | 2024.05 | ✓
 | | SCANS[CYZ25] | S | D1,8,19–20 | D15 | U3,6,18,33 | OR | Time+Mem | ✓ | ✓ | ○ | S | 2024.08 | ✓
 | | CAST[LPRMDND25] | S | D3 | U10 | ✓ | ✓ | ✓ | ○ | S | 2024.09 |
 | | SVA[WHRP25] | S | D1,5,8–9,19–20,24 | U6,17–18 | OR | ✓ | ✓ | ✓ | ○ | S | 2024.10 | ✓
 | | Category[BGRP24] | S | D7,25 | U10 | ✓ | ○ | S | 2024.10 |
 | | Antidote[SZDHZ25] | J | D5 | U10 | ✓ | ✓ | ✓ | ○ | S | 2024.10 |
 | | SAC[XWZWLHSY24] | S,B,T | D19 | D6 | D23 | U6,22 | OR | ✓ | ✓ | ✓ | ○ | S | 2024.11 |
 | | AdaSteer[ZGHDZSHZQCL25] | J | D1 | U10 | AA, OR | Time | ✓ | ○ | S | 2025.04 |
 | 稀疏自编码器 | SAS[BRPCV25] | S,T | ✍ | D15 | U6 | ✓ | ○ | S | 2025.02 |
 | 参数编辑 | ProFS[UDHZH25] | S | D4 | U13,17–21,34 | ✓ | ○ | 2024.05 | ✓
输出 | 引导解码 | DeAL[HSBLGPMKR25] | S | D13 | U36 | AA | ✓ | ○ | M | 2024.02 |
 | 对比解码 | DoLA[CXLKGH24] | T | D15,22 | U7,23,35 | Time+Mem | ✓ | ✓ | ✓ | ○ | 2023.09 | ✓
 | | ICD[ZCBS23] | T | D15,21 | U6,17,10 | ✓ | ○ | F | 2023.12 | ✓
 | | Self-CD[SWGGYGZHZL24] | S | D19–20 | OR | ✓ | ✓ | ✓ | ○ | 2024.01 | ✓
 | | ROSE[ZDLDT24] | S | D10–14,19 | U6,10 | ✓ | ○ | F | 2024.02 |
 | | DeCoRe[GJADTAMS24] | T | D15, | U3,14,22–25 | U28 | ✓ | ✓ | ○ | F | 2024.10 | ✓
 | 迭代改写 | RAIN[LWZZZ24] | J,T | D1 | D15 | U36 | AA | Time | ✓ | ✓ | ✓ | ○ | F | 2023.09 | ✓

表1：现有用于LLM可信赖性的无需训练方法概览。每一行按模型层级（输入、内部、输出）和技术分类。目标表示主要目标：S = 安全性，T = 真实性，B = 偏见，J = 越狱。在评估下，条目是用于评估安全性、偏见、真实性、实用性和鲁棒性的基准数据集；数据集ID映射到表8和表9，✍表示论文特定的自定义数据集。在鲁棒性下，AA = 对抗性攻击研究，OR = 过度拒绝研究。成本说明了研究中检查的计算开销类型：Time = 推理时延，Mem = GPU内存使用。开放标记商业模型测试。小/中/大表示兼容性（<12B, 12–32B, >32B）。访问表示可访问性（● = 黑盒，○ = 白盒）。额外资源：P = 提示，S = 辅助存储，M = 额外模型，F = 额外前向传递。日期和代码给出发表日期和代码可用性。

### 定义

在本文中，我们关注无需训练的方法，这些是不进行基于梯度的优化并直接应用于模型或推理期间的方法。这些技术避免为模型或任何辅助组件（如防护措施）计算梯度，使其通常快速且廉价使用。示例包括提示、对参数或激活的仅前向修改，以及约束驱动或对比解码。所有这些方法仅依赖于操纵输入、输出或中间表示来影响模型行为。

相比之下，我们排除了涉及基于梯度的更新的方法，如通过LoRA[HSWALWWC22]进行微调或基于梯度的模型编辑[MSABB23]，即使它们很高效。这些技术仍然需要相当数量的训练资源（如GPU和数据）用于梯度计算，这在许多部署环境中可能具有挑战性。通过明确定义无需训练方法的边界，这项工作突出了一类特别适合真实世界约束的快速、轻量级干预。

### 为什么选择无需训练方法？

无需训练方法在实际应用中很有吸引力，因为它们易于部署、开发快速，适合低资源环境。它们也能自然地集成为LLMs周围的预处理或后处理步骤。以下，我们详细总结了它们的关键优势：

- •效率。基于训练的方法如SFT和RLHF需要大型数据集和大量GPU资源。相比之下，无需训练的方法完全避免梯度更新，降低计算成本并减少数据需求。
- •可访问性。无需训练的方法（如提示）在黑盒设置中有效运行，易于跨模型转移，特别适合商业系统（如OpenAI的GPT-4o和Anthropic的Claude）。
- •可审计性。无需训练的方法可以低成本快速部署或回滚，这使得快速进行A/B测试以评估影响成为可能。此外，每项干预都可以版本化和记录，便于可重现的评估、可追溯性和遵守治理或监管要求。
- •响应能力。当出现新风险时（如新的越狱攻击），无需重新训练即可约束或调整模型行为，实现快速缓解。

### 文献搜索

我们收集了旨在改进LLMs可信赖性或报告可信赖性评估的无需训练方法，排除了关注一般能力或效率的工作。如表1所总结的，我们的调查包括27篇论文，我们观察到所有论文都在ChatGPT发布之后（2022年11月）发表。每种方法根据其在推理时信息流中的干预位置进行分类——输入、内部或输出。从时间上看，这些技术的发展已经从输入层级提示和上下文学习策略（2023年末）进展到输出层级解码控制（2024年初至中期），最近则到达了对激活或参数的内部干预（2024年末至2025年）。在被调查的论文中，越狱攻击和安全性是最常评估的方面，而鲁棒性（如水印）和计算开销则报告较少。大多数方法的代码是公开可用的，大多数评估关注小到中等规模的模型，大规模模型的结果报告较少。

### 现有方法的分类法

为了系统化现有工作，我们根据推理管道内的信息流将无需训练方法分类：输入、内部和输出阶段。每个阶段代表不同的干预位置，涉及不同级别的模型访问，如图1所示。

- •输入层级方法。我们考虑在模型执行前修改输入的方法。示例包括将内容附加到系统或用户提示，或插入与目标行为相关的演示。这些技术仅需要访问输入界面，通常是模型无关的。
- •内部层级方法。这些方法作用于模型的隐藏表示或参数。它们通过注入或修改内部组件（如激活或权重）来引导行为。由于它们需要访问中间状态，这些技术仅适用于开源权重模型。
- •输出层级方法。这些方法在解码期间或之后起作用，以调整生成的文本。它们修改输出logits以引导下一个标记的生成，或执行迭代改写以将初始草稿精化为所需行为。由于它们需要访问输出logits，它们也适用于开源权重模型。

这个分类法为理解无需训练方法的最新进展提供了一个结构化框架，突出了不同方法如何操纵输入、内部或输出来影响模型行为。

### 景观观察

在表1中，我们呈现了现有无需训练方法的概览。根据该表，我们得出以下观察。

- •大多数现有方法关注安全性和越狱防护，而副作用

大语言模型可信性无训练方法的系统研究

相似文章

大型语言模型黑盒不确定性估计方法的系统性评估

大型音频语言模型综述：泛化、可信度与展望

TrustLDM：语言扩散模型可信度基准测试

大语言模型不确定性中的人类对齐、校准与激活模式

DataDignity：用于大型语言模型的训练数据归属

提交意见反馈