提示-激活对偶性:通过注意力层干预改进激活引导
摘要
本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。
查看缓存全文
缓存时间: 2026/05/12 14:52
论文页面 - 提示-激活对偶性:通过注意力层干预改进激活引导
来源:https://huggingface.co/papers/2605.10664
摘要
语言模型中的激活引导在对话场景中会遭受 KV 缓存污染问题,GCAD 通过从提示贡献中提取引导信号并应用词元级门控来改善长程连贯性。
激活引导(https://huggingface.co/papers?q=Activation%20steering)通过在推理时向内部表示添加方向来控制语言模型行为,但标准的残差流引导(https://huggingface.co/papers?q=residual-stream%20steering)在有状态对话中可能失效。我们指出 KV 缓存污染(https://huggingface.co/papers?q=KV-cache%20contamination)是一个关键失效模式:被引导的词元状态被存储并反复重用,将局部扰动转变为累积的连贯性退化。为应对这一挑战,我们提出了门控裁剪注意力增量引导(GCAD),该方法从系统提示对自注意力(https://huggingface.co/papers?q=self-attention)的贡献中提取引导信号,并通过词元级门控(https://huggingface.co/papers?q=token-level%20gating)加以应用。在人格引导(https://huggingface.co/papers?q=persona-steering)实验中,GCAD 在保持特质控制的同时显著改善了长程连贯性。在主要的多轮基准测试中,GCAD 将平均连贯性漂移(https://huggingface.co/papers?q=coherence%20drift)从 -18.6 提升至 -1.9,并将第 10 轮特质表达(https://huggingface.co/papers?q=turn-10%20trait%20expression)从 78.0 提升至 93.1。这些结果表明,当干预遵循模型已用于行为控制的提示介导路径时,激活引导(https://huggingface.co/papers?q=activation%20steering)变得更加可靠。
查看 arXiv 页面(https://arxiv.org/abs/2605.10664) 查看 PDF(https://arxiv.org/pdf/2605.10664) GitHub 0(https://github.com/NihiI-obstat/Gated-Cropped-Attention-Delta) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.10664)
在您的智能体中获取此论文:
hf papers read 2605\.10664
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
无模型链接到此论文
请在模型的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。
引用此论文的数据集 0
无数据集链接到此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。
引用此论文的 Spaces 0
无 Space 链接到此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。
包含此论文的收藏集 0
无收藏集包含此论文
请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
SHIFT:面向检索增强生成中知识冲突缓解的门控调制激活引导
介绍了SHIFT框架,该框架利用可学习的门控调制自适应地引导大语言模型的内部激活,以不到0.01%的可训练参数缓解检索增强生成中的知识冲突。
想要更好的合成数据?引导它:用于低资源语言生成的激活引导
本文研究了激活引导作为替代少样本提示的方法,用于生成低资源语言的合成数据。作者提出了LanguageSteering和QualitySteering策略,表明在早期层进行引导可以提高数据多样性并改善下游模型性能。
通过激活引导克服全双工语音语言模型中的状态惯性
本文识别了全双工语音语言模型中的"状态惯性",即在用户打断时,模型的内部预测焦点滞后,并提出了一种无需训练的激活引导方法来改善打断处理。
视觉-语言-动作模型中的闭环神经激活控制
提出CTRL-STEER,一种闭环框架,通过时变控制信号对视觉-语言-动作模型进行自适应引导,在无需重新训练的情况下,实现了概念调节与任务成功率之间的更好权衡。
超越引导向量:用于推理时干预的基于流的激活引导
本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。