提示-激活对偶性：通过注意力层干预改进激活引导

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

本文识别出KV缓存污染是对话中激活引导的一种失败模式，并提出了GCAD方法，该方法从提示贡献中提取引导信号，并应用词元级门控来改进长程连贯性，在多轮基准上取得了显著提升。

激活引导通过在推理时向内部表示添加方向来控制语言模型的行为，但标准的残差流引导在有状态的对话中可能会失败。我们识别出KV缓存污染是一个关键的失败模式：被引导的词元状态被存储并反复重用，将局部扰动转变为累积的连贯性退化。为解决这一挑战，我们提出了门控裁剪注意力-增量引导（GCAD），该方法从系统提示对自注意力的贡献中提取引导信号，并应用词元级门控。在角色引导实验中，GCAD在保持特征控制的同时，显著改进了长程连贯性。在主要的多轮基准上，GCAD将平均连贯性漂移从-18.6提升到-1.9，并将第10轮的特征表达从78.0提高到93.1。这些结果表明，当干预遵循模型已经用于行为控制的提示介导路径时，激活引导变得更加可靠。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 14:52

论文页面 - 提示-激活对偶性：通过注意力层干预改进激活引导

来源：https://huggingface.co/papers/2605.10664

摘要

语言模型中的激活引导在对话场景中会遭受 KV 缓存污染问题，GCAD 通过从提示贡献中提取引导信号并应用词元级门控来改善长程连贯性。

激活引导（https://huggingface.co/papers?q=Activation%20steering）通过在推理时向内部表示添加方向来控制语言模型行为，但标准的残差流引导（https://huggingface.co/papers?q=residual-stream%20steering）在有状态对话中可能失效。我们指出 KV 缓存污染（https://huggingface.co/papers?q=KV-cache%20contamination）是一个关键失效模式：被引导的词元状态被存储并反复重用，将局部扰动转变为累积的连贯性退化。为应对这一挑战，我们提出了门控裁剪注意力增量引导（GCAD），该方法从系统提示对自注意力（https://huggingface.co/papers?q=self-attention）的贡献中提取引导信号，并通过词元级门控（https://huggingface.co/papers?q=token-level%20gating）加以应用。在人格引导（https://huggingface.co/papers?q=persona-steering）实验中，GCAD 在保持特质控制的同时显著改善了长程连贯性。在主要的多轮基准测试中，GCAD 将平均连贯性漂移（https://huggingface.co/papers?q=coherence%20drift）从 -18.6 提升至 -1.9，并将第 10 轮特质表达（https://huggingface.co/papers?q=turn-10%20trait%20expression）从 78.0 提升至 93.1。这些结果表明，当干预遵循模型已用于行为控制的提示介导路径时，激活引导（https://huggingface.co/papers?q=activation%20steering）变得更加可靠。

查看 arXiv 页面（https://arxiv.org/abs/2605.10664）查看 PDF（https://arxiv.org/pdf/2605.10664） GitHub 0（https://github.com/NihiI-obstat/Gated-Cropped-Attention-Delta）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.10664）

在您的智能体中获取此论文：

hf papers read 2605\.10664

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

无模型链接到此论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。

引用此论文的数据集 0

无数据集链接到此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。

引用此论文的 Spaces 0

无 Space 链接到此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.10664 以从此页面链接。

包含此论文的收藏集 0

无收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

提示-激活对偶性：通过注意力层干预改进激活引导

论文页面 - 提示-激活对偶性：通过注意力层干预改进激活引导

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

超越引导向量：用于推理时干预的基于流的激活引导

保持专注：通过键正交投影实现激活转向

不破坏的引导：基于机制的离散扩散语言模型干预

通过对话场景建模和意图-关键词桥接增强目标导向主动对话系统

LongAct：利用内在激活模式进行长上下文强化学习

提交意见反馈