AERIC：针对隐式有害对话的预期性隐藏状态监测

arXiv cs.CL 2026/05/26 04:00 论文

摘要

介绍AERIC，一种轻量级隐藏状态监测方法，用于检测LLM对话中的隐式有害内容，无需额外的前向传递，在强基线上实现了AUROC提升，且延迟开销极小。

arXiv:2605.23974v1 公告类型：新摘要：当前语言模型面临两个安全挑战：必须足够早地检测到风险以避免暴露有害的后续内容，并且有害性本身可能是隐式的，而非通过明显的有毒文本信号表现出来。现有的响应级防护在判断完成文本方面表现强劲，而原生流式防护则更接近令牌时间，但两种设置都留下了一个问题：轻量级监测器能否从生成器自身的内部轨迹中预见隐式的有害偏移。我们研究了预期性同程监测（anticipatory same-pass monitoring），其中安全监测器可以读取常规解码过程中产生的隐藏状态，但不能调用额外的基模型前向传递。我们引入了AERIC，一种面向迁移的隐式有害对话隐藏状态方法，结合了短时程危险预测、支持敏感抑制和提示条件残差评分，并在同程指数移动平均决策规则下运行。默认的线性监测器仅包含387个可训练头部参数。在与Qwen3GuardStream-4B的均衡基准对比中，AERIC在DiaSafety上将AUROC从0.6830提升至0.7143，在Harmful Advice上从0.8219提升至0.8582。对于提示级触发基准，我们通过源端安全预算规则校准AERIC阈值，该规则在将安全触发率限制在10%以内的同时最大化触发覆盖率。在该规则下，针对Qwen和Gemma模型，trigger@64在HarmBench DirectRequest上达到0.6438和0.4656，在SocialHarmBench上达到0.6849和0.7363，平均保留23.53至41.86个回答令牌。同程部署同样高效：在包含63个提示的有害提示固定生成基准（综合了Qwen3-8B下的HarmBench DirectRequest和SocialHarmBench）上，监测器仅增加了2.34%的平均延迟，而Qwen3Guard-Stream-4B则增加了79.40%。

查看原文

查看缓存全文

缓存时间: 2026/05/26 08:59

# AERIC: 面向隐式有害对话的前瞻性隐藏状态监测

来源：https://arxiv.org/html/2605.23974

Jihyung Park Saleh Afroogh Junfeng Jiao  
德克萨斯大学奥斯汀分校  
{jihyung803, saleh.afroogh}@utexas.edu  
[email protected]

###### 摘要

当前语言模型面临两个安全挑战：风险必须尽早被检测到，以避免暴露有害的后续内容；此外，有害性本身可能是隐式的，而非通过明显的有毒文本表现出来。现有的响应级防护在判断完整文本方面表现强劲，原生流式防护则更接近令牌级别，但这两种设定都留下了一个问题：一个轻量级监测器能否仅基于生成器自身的内部轨迹来预测隐式的有害偏移。我们研究前瞻性同通道监测，在这种设定下，安全监测器可以读取普通解码过程中产生的隐藏状态，但不可调用基础模型的额外前向传播。我们提出了 **AERIC**，一种面向隐式有害对话的迁移导向隐藏状态方法，它结合了短时域危害预测、支持敏感性抑制以及提示条件残差评分，并采用同通道指数移动平均决策规则。默认线性监测器仅包含 387 个可训练头部参数。在均衡基准上，相比 Qwen3Guard-Stream-4B，AERIC 在 DiaSafety 上将 AUROC 从 0.6830 提升至 0.7143，在 Harmful Advice 上从 0.8219 提升至 0.8582。对于提示级触发基准，我们通过源端安全预算规则校准 AERIC 阈值，该规则在约束安全触发率不超过 10% 的同时最大化触发覆盖率。在该规则下，对于 HarmBench DirectRequest，Qwen 和 Gemma 的 trigger@64 分别达到 0.6438 和 0.4656；对于 SocialHarmBench，分别达到 0.6849 和 0.7363，平均拦截 23.53 到 41.86 个回答令牌。同通道部署同样高效：在 Qwen3-8B 下，针对 HarmBench DirectRequest 和 SocialHarmBench 聚合的 63 条有害提示固定生成基准，监测器仅使平均延迟增加 2.34%，而 Qwen3Guard-Stream-4B 则使其增加 79.40%。这些结果支持一个聚焦的主张：在严格的“无额外前向传播”约束下，显式有害监督可以迁移至隐式有害监测，从而在暴露前提供实用的风险信号，即使面对强大的原生流式防护也是如此；不过干预策略仍是一个开放的系统问题。

## 1 引言

当前 LLM 安全面临两个部分独立的问题。首先，安全防护在评估完整文本时通常最为有效，而流式部署需要对部分生成内容做出安全决策，因此非常适合在解码过程中进行早期干预[12, 10, 26]。其次，有害性并非总是显式的：不安全行为可能具有隐蔽性、上下文敏感性，或仅隐含在响应的轨迹中，尤其是在对话和建议场景中[16, 24, 21, 25, 14, 13]。现有防护如 ShieldGemma 和 WildGuard 是强大的响应级审核器，但其默认角色是追溯性的：它们判断一个提示或已完成回答是否不安全，但往往要在足够多的文本产生之后才能进行。即使将审核移至更接近令牌的时刻，检测通常仍然依赖于对不断增长的前缀运行额外的防护，或者等待生成的文本本身变得足够显式以进行分类。在这两种情况下，系统都是在不安全轨迹已在表层变得明显后才做出反应。

本文研究一个更严格的目标：前瞻性同通道监测。在流式生成中，安全决策必须基于部分输出而非完整回答做出，这促使审核向解码过程中的细粒度检查推进[29, 20]。但频繁的安全检查本身可能成为系统瓶颈：除非监测信号保持轻量，否则生成过程中的重复干预会增加推理成本和延迟[27]。因此，我们聚焦于同通道设定，其中监测器读取生成器在普通解码过程中已产生的隐藏状态，而非重复调用一个独立的生成式防护。这顺应了一个更广泛的趋势：从内部表示中推导安全信号以支持低成本的实时监测[9]。

更困难的挑战在于有害性往往是隐式的。在许多对话场景中，危险并非由单个显式有毒短语承载。一个回答可能保持礼貌、语气支持或局部合理，但同时仍向鼓励自残、不安全的医疗指导、剥削性升级或其他依赖上下文的失效方向漂移。这在对话安全和建议场景中尤其明显，同样的词语根据提示和对话上下文可能扮演截然不同的角色。仅看可见前缀，或仅看模型的下一个令牌偏好，往往回答错了问题。这些信号表示模型本地可能会说什么，但不能说明后续是否已经开始向不安全的行为区域移动[16, 24, 25]。

我们的方法基于一个观察：模型的隐藏状态中包含关于后续内容的预测信息，这些信息不能完全从表层文本中恢复。我们提出了 **AERIC**（前瞻性证据与残差推断的后续内容监测），一种面向隐式有害对话的同通道隐藏状态监测器。AERIC 直接结合了与上述失效模式相对应的三种信号。第一个是未来危害头部，用于预测有害后续内容是否将在短时域内开始。这是让监测器在有害内容在屏幕上变得显式之前采取行动的机制。第二个是支持头部，用于对安全、有界、支持性或降级后续内容进行反证据建模。这很重要，因为情绪强烈的语言不一定不安全，只关注危害的监测器往往会在困难但合理的协助上过度触发。第三个是配对的残差头部，用于测量提示条件下的不安全偏移。它不仅仅问当前文本单独看起来是否有风险，而是问相对于同类提示的安全行为，隐藏状态轨迹是否已向不安全后续方向偏离。由此产生的原始评分通过同通道指数移动平均决策规则进行部署，在稳定在线触发的同时保持前缀可测量性。

在两个生成器系列中，这种框架呈现出一致的画面：在 Qwen/Qwen3-8B 上，AERIC 在 DiaSafety 上达到 AUROC 0.7143，在 Harmful Advice 上达到 0.8582；在 google/gemma-4-E4B-it 上分别达到 0.7181 和 0.8287。Qwen3Guard-Stream-4B 是我们比较中最强的原生流式基线，但 AERIC 在两个均衡目标上的 AUROC 仍高于它。AUPRC 幅度较小，在某些比较中存在重叠，因此我们明确报告两种排名指标。在仅需提示的有害请求套件上，在源端 10% 安全触发预算下，该监测器在暴露前仍然具有可操作性。在 HarmBench DirectRequest 上，Qwen 达到 trigger@64 0.6438，Gemma 达到 0.4656；在 SocialHarmBench 上分别达到 0.6849 和 0.7363。同时，代价很低。在 Qwen/Qwen3-8B 下，针对 HarmBench DirectRequest 和 SocialHarmBench 聚合的 63 条有害提示固定生成基准，同通道监测器仅使平均延迟增加 2.34%。相应的开销为 Qwen3Guard-Stream-4B 增加 79.40%，前缀化 ShieldGemma-9B 增加 158.73%，前缀化 WildGuard 增加 216.74%。现有防护通常最擅长判断已完成的文本或足够显式的文本中是否已存在危害，而我们的目标是在危害暴露前检测到有害后续内容。现有审核信号也严重依赖表层形式，而我们的目标是依赖于提示上下文和话语角色的隐式有害偏移。AERIC 表明，通过结合短时域危害预测、支持敏感性抑制、提示条件残差评分以及 EMA 平滑的在线触发，显式有害监督可以被重新用于面向隐式有害对话的前瞻性同通道监测。这提供了在严格的“无额外前向传播”约束下的实用暴露前信号，尽管下游干预策略仍然是一个独立的系统问题。¹¹为支持可复现性，代码和评估脚本将在相机就绪版本中发布。

## 2 相关工作

#### 隐式有害性。
语言模型安全中的一个核心困难在于有害性往往是隐式而非显式的。先前工作认为有害文本不是一个单一的表层现象，应沿多个维度进行刻画，包括上下文和语用效果[22]。关于隐蔽不安全文本和隐式毒性的工作进一步表明，危险或有毒的含义可能无法还原为明显的关键词、已知表层模式、侮辱性词语或显式有毒短语[16, 7, 25]。在对话和建议场景中，不安全含义可能更少依赖于单个有毒短语，而更多依赖于对话上下文、话语角色或后续内容的可能方向[24, 21]。DiaSafety[24] 是这一场景的代表性基准，因为安全判断往往依赖于上下文解释而非仅凭显式措辞。Harmful Advice[14, 13] 提供了一个互补的面向建议的目标，其中即使总体建议不安全，有害性可能在局部仍然微妙。关于隐藏状态探测的先前工作进一步启发了我们的方法，通过表明内部表示可以揭示潜在属性，如欺骗和未来后续结构，在这些属性在表层文本中完全可见之前[1, 18]。我们以此为前提，但将其转向一个迁移设定：目标不仅是从前缀隐藏状态中读出潜在属性，更是预测隐式有害对话中的不安全后续内容。

#### LLM 安全防护。
另一条工作线更直接地研究安全防护。ShieldGemma²²和 WildGuard³³是代表性的响应级防护，它们在文本产生后对有害提示、有害回答和拒绝行为进行分类。它们是强大且实用的基线，我们与之直接比较，但其默认操作模式仍然是追溯性的。因此，近期工作将审核推向了更接近令牌的时刻。Qwen3Guard-Stream-4B⁴⁴在我们设定中尤其相关，因为它是一个原生流式防护，而 NExT-Guard[4]、HIDDENGUARD[17] 和 Kelp[11] 都将安全监测向流式或潜在状态信号推进。我们的工作与这一轨迹一致，但在两个方面有所不同。首先，我们特别关注隐式有害对话，而非广泛的有害性检测。其次，我们施加了同通道约束：监测器可以在普通解码过程中读取生成器自身的隐藏状态，但不得通过基础模型调用额外的前向传播。在监督方面，FineHarm[12] 很有用，因为它提供了关于显式有害后续内容（而非仅响应级标签）的起始敏感标签，而 Anthropic HH-RLHF[2] 和 Anthropic 红队数据[5] 则提供了匹配的安全和不安全行为，我们将其用于支持风格的监督和提示条件残差学习。

## 3 方法

参考图 1：AERIC 概览。在普通解码过程中，冻结的生成器产生当前隐藏状态 \(h_t\) 和缓存的提示表示 \(p\)。AERIC 读取这些已计算的状态，计算未来危害、支持和配对残差评分，并应用 EMA 平滑以产生在线触发信号。

### 3.1 同通道监测设定

令一个冻结的因果语言模型在提示 \(x\) 条件下生成令牌 \(y_1,\dots,y_T\)。在解码步骤 \(t\)，模型为当前前缀 \((x, y_1,\dots,y_{t-1})\) 产生隐藏状态 \(h_t \in \mathbb{R}^d\) 以及下一个令牌 logits \(o_t \in \mathbb{R}^V\)。监测器不调用基础模型的额外前向传播；它仅读取 \(h_t\) 和一个缓存的提示总结 \(p\)（通过对提示隐藏状态的平均池化获得，在解码开始前计算一次）。监测器输出一个标量评分 \(g_t\)，由三个项组成：

\[
f_t = w_f^T h_t + b_f, \quad s_t = w_s^T h_t + b_s, \quad r_t = w_r^T h_t + b_r
\]
\[
g_t = f_t - \alpha s_t + \beta r_t
\]

其中 \(\alpha > 0\) 控制支持证据的抑制，\(\beta > 0\) 控制提示条件残差偏移的贡献。未来危害项询问是否可能很快发生有害后续内容，支持项询问当前轨迹是否看起来仍有界或具有纠正性，残差项询问相对于同类提示的安全行为，后续内容是否已向不安全方向偏移。

对于在线监测，我们使用指数移动平均平滑原始评分：
\[
m_t = \lambda g_t + (1-\lambda) m_{t-1}
\]
其中 \(\lambda = 0.3\) 在我们的主运行中使用。附录 C 中包含一个简短的敏感性检查，显示均衡 AUROC 在更宽的 \(\lambda\) 值范围内保持稳定。当 \(m_t\) 超过阈值 \(\theta\) 时标记生成。由于 \(m_t\) 仅依赖于当前隐藏状态、缓存的提示总结和之前的监测值，决策保持同通道和前缀可测量性。

默认线性监测器有意做得很小。三个标量头部各有 128 个权重和一个偏置，总共 \(3 \times 129 = 387\) 个可训练头部参数。部署的工件额外存储固定的投影矩阵和归一化统计量，对于 Qwen/Qwen3-8B 大约有 1.60M 个存储标量（6.1 MiB 以 fp32 计），对于 google/gemma-4-E4B-it 大约有 1.00M 个存储标量（3.8 MiB）。这些计数仅描述监测器工件；生成器是冻结模型，其已计算的隐藏状态被读取。完整的监测器大小和超参数细节在附录 C 中报告。对于均衡基准……

相似文章

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移来源：[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要经过安全调优的大语言模型（LLM）通常会回避承认人口统计差异，即使这种承认在事实上是正确的（例如，基于血统的

AERIC：针对隐式有害对话的预期性隐藏状态监测

相似文章

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

EUDAIMONIA：评估AI中的不良动态

迟一步：多轮对话中隐藏恶意意图的响应感知防御

AURA: 情境化LLM智能体中隐式需求的意图导向探询

自适应潜在智能体推理

提交意见反馈