提示-激活对偶性:通过注意力层干预改进激活引导
摘要
本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。
查看缓存全文
缓存时间: 2026/05/12 14:52
论文页面 - 提示-激活对偶性:通过注意力层干预改进激活引导
来源:https://huggingface.co/papers/2605.10664
摘要
语言模型中的激活引导在对话场景中会遭受 KV 缓存污染问题,GCAD 通过从提示贡献中提取引导信号并应用词元级门控来改善长程连贯性。
激活引导(https://huggingface.co/papers?q=Activation%20steering)通过在推理时向内部表示添加方向来控制语言模型行为,但标准的残差流引导(https://huggingface.co/papers?q=residual-stream%20steering)在有状态对话中可能失效。我们指出 KV 缓存污染(https://huggingface.co/papers?q=KV-cache%20contamination)是一个关键失效模式:被引导的词元状态被存储并反复重用,将局部扰动转变为累积的连贯性退化。为应对这一挑战,我们提出了门控裁剪注意力增量引导(GCAD),该方法从系统提示对自注意力(https://huggingface.co/papers?q=self-attention)的贡献中提取引导信号,并通过词元级门控(https://huggingface.co/papers?q=token-level%20gating)加以应用。在人格引导(https://huggingface.co/papers?q=persona-steering)实验中,GCAD 在保持特质控制的同时显著改善了长程连贯性。在主要的多轮基准测试中,GCAD 将平均连贯性漂移(https://huggingface.co/papers?q=coherence%20drift)从 -18.6 提升至 -1.9,并将第 10 轮特质表达(https://huggingface.co/papers?q=turn-10%20trait%20expression)从 78.0 提升至 93.1。这些结果表明,当干预遵循模型已用于行为控制的提示介导路径时,激活引导(https://huggingface.co/papers?q=activation%20steering)变得更加可靠。
查看 arXiv 页面(https://arxiv.org/abs/2605.10664) 查看 PDF(https://arxiv.org/pdf/2605.10664) GitHub 0(https://github.com/NihiI-obstat/Gated-Cropped-Attention-Delta) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.10664)
在您的智能体中获取此论文:
hf papers read 2605\.10664
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
无模型链接到此论文
请在模型的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。
引用此论文的数据集 0
无数据集链接到此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。
引用此论文的 Spaces 0
无 Space 链接到此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。
包含此论文的收藏集 0
无收藏集包含此论文
请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
超越引导向量:用于推理时干预的基于流的激活引导
本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。
保持专注:通过键正交投影实现激活转向
本文介绍了通过键正交投影进行转向(SKOP)方法,该方法通过防止注意力重路由来控制大语言模型(LLM)的行为,从而在保持转向效果的同时降低效用下降。
不破坏的引导:基于机制的离散扩散语言模型干预
本文介绍了一种新颖的自适应调度器,用于利用稀疏自编码器引导离散扩散语言模型,结果表明,基于特定属性提交时机进行针对性干预,比均匀方法能提升控制质量和强度。
通过对话场景建模和意图-关键词桥接增强目标导向主动对话系统
本文提出了一种方法,通过将用户画像和领域知识共同建模为对话场景,并采用意图-关键词桥接技术来预测未来的对话轮次,从而增强目标导向的主动对话系统。
LongAct:利用内在激活模式进行长上下文强化学习
LongAct 提出了一种显著性引导的稀疏更新策略,通过选择性更新与查询和键向量中高幅值激活相关的权重来改进 LLMs 的长上下文推理能力,在 LongBench v2 上实现了约 8% 的提升。