提示-激活对偶性:通过注意力层干预改进激活引导

Hugging Face Daily Papers 论文

摘要

本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。

激活引导通过在推理时向内部表示添加方向来控制语言模型的行为,但标准的残差流引导在有状态的对话中可能会失败。我们识别出KV缓存污染是一个关键的失败模式:被引导的词元状态被存储并反复重用,将局部扰动转变为累积的连贯性退化。为解决这一挑战,我们提出了门控裁剪注意力-增量引导(GCAD),该方法从系统提示对自注意力的贡献中提取引导信号,并应用词元级门控。在角色引导实验中,GCAD在保持特征控制的同时,显著改进了长程连贯性。在主要的多轮基准上,GCAD将平均连贯性漂移从-18.6提升到-1.9,并将第10轮的特征表达从78.0提高到93.1。这些结果表明,当干预遵循模型已经用于行为控制的提示介导路径时,激活引导变得更加可靠。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 14:52

论文页面 - 提示-激活对偶性:通过注意力层干预改进激活引导

来源:https://huggingface.co/papers/2605.10664

摘要

语言模型中的激活引导在对话场景中会遭受 KV 缓存污染问题,GCAD 通过从提示贡献中提取引导信号并应用词元级门控来改善长程连贯性。

激活引导(https://huggingface.co/papers?q=Activation%20steering)通过在推理时向内部表示添加方向来控制语言模型行为,但标准的残差流引导(https://huggingface.co/papers?q=residual-stream%20steering)在有状态对话中可能失效。我们指出 KV 缓存污染(https://huggingface.co/papers?q=KV-cache%20contamination)是一个关键失效模式:被引导的词元状态被存储并反复重用,将局部扰动转变为累积的连贯性退化。为应对这一挑战,我们提出了门控裁剪注意力增量引导(GCAD),该方法从系统提示对自注意力(https://huggingface.co/papers?q=self-attention)的贡献中提取引导信号,并通过词元级门控(https://huggingface.co/papers?q=token-level%20gating)加以应用。在人格引导(https://huggingface.co/papers?q=persona-steering)实验中,GCAD 在保持特质控制的同时显著改善了长程连贯性。在主要的多轮基准测试中,GCAD 将平均连贯性漂移(https://huggingface.co/papers?q=coherence%20drift)从 -18.6 提升至 -1.9,并将第 10 轮特质表达(https://huggingface.co/papers?q=turn-10%20trait%20expression)从 78.0 提升至 93.1。这些结果表明,当干预遵循模型已用于行为控制的提示介导路径时,激活引导(https://huggingface.co/papers?q=activation%20steering)变得更加可靠。

查看 arXiv 页面(https://arxiv.org/abs/2605.10664) 查看 PDF(https://arxiv.org/pdf/2605.10664) GitHub 0(https://github.com/NihiI-obstat/Gated-Cropped-Attention-Delta) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.10664)

在您的智能体中获取此论文:

hf papers read 2605\.10664

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

无模型链接到此论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。

引用此论文的数据集 0

无数据集链接到此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。

引用此论文的 Spaces 0

无 Space 链接到此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。

包含此论文的收藏集 0

无收藏集包含此论文

请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

超越引导向量:用于推理时干预的基于流的激活引导

arXiv cs.CL

本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。

保持专注:通过键正交投影实现激活转向

arXiv cs.CL

本文介绍了通过键正交投影进行转向(SKOP)方法,该方法通过防止注意力重路由来控制大语言模型(LLM)的行为,从而在保持转向效果的同时降低效用下降。

LongAct:利用内在激活模式进行长上下文强化学习

Hugging Face Daily Papers

LongAct 提出了一种显著性引导的稀疏更新策略,通过选择性更新与查询和键向量中高幅值激活相关的权重来改进 LLMs 的长上下文推理能力,在 LongBench v2 上实现了约 8% 的提升。