基于对比对搜索的靶向神经元调控
摘要
对比神经元归因(CNA)识别出一组稀疏的MLP神经元,这些神经元能够区分有害提示和良性提示,从而在指令微调的大语言模型中实现有效的行为引导,同时不会降低输出质量。该方法在越狱基准测试上将拒绝率降低了50%以上,同时保持了流畅性。
查看缓存全文
缓存时间: 2026/05/19 06:31
论文页面 - 通过对比对搜索实现目标神经元调控
来源:https://huggingface.co/papers/2605.12290
摘要
对比神经元归因能够识别出一小部分MLP神经元,这些神经元区分了指令微调语言模型中有害与无害的提示,从而在不影响输出质量的前提下实现有效的行为引导。
语言模型经过指令微调后会拒绝有害请求,但这一行为背后的机制仍不清楚。流行的引导方法作用于残差流(https://huggingface.co/papers?q=residual%20stream),但在高干预强度下会降低输出连贯性,限制其实用性。我们引入对比神经元归因(CNA)(https://huggingface.co/papers?q=contrastive%20neuron%20attribution),该方法识别出0.1%的MLP神经元(https://huggingface.co/papers?q=MLP%20neurons),其激活状态最能区分有害与无害提示,仅需前向传递,无需梯度或辅助训练。在指令模型中,消融所发现的回路可将标准越狱基准(https://huggingface.co/papers?q=jailbreak%20benchmark)上的拒绝率(https://huggingface.co/papers?q=refusal%20rates)降低超过50%,同时在所有引导强度下保持流畅性和非退化性。将CNA应用于Llama和Qwen架构(参数规模从1B到72B)的匹配基础模型和指令模型,我们发现基础模型包含类似的后期判别结构(https://huggingface.co/papers?q=discrimination%20structure),但引导这些神经元仅产生内容偏移,而非行为变化。这些结果表明,神经元层面的干预能够实现可靠的行为引导,且没有残差流方法的质量权衡。更广泛地说,我们的发现表明,对齐微调(https://huggingface.co/papers?q=alignment%20fine-tuning)将预先存在的判别结构(https://huggingface.co/papers?q=discrimination%20structure)转化为稀疏、可靶向的拒绝门(https://huggingface.co/papers?q=targetable%20refusal%20gate)。
查看arXiv页面(https://arxiv.org/abs/2605.12290)查看PDF(https://arxiv.org/pdf/2605.12290)项目页面(https://github.com/neuron-steering)GitHub0(https://github.com/NousResearch/neural-steering)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12290)
在您的代理中获取此论文:
hf papers read 2605\.12290
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型README.md中引用arxiv.org/abs/2605.12290即可从本页链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集README.md中引用arxiv.org/abs/2605.12290即可从本页链接。
引用此论文的Space0
没有Space链接到此论文
在Space README.md中引用arxiv.org/abs/2605.12290即可从本页链接。
包含此论文的收藏0
没有收藏包含此论文
将本论文添加到收藏(https://huggingface.co/new-collection)即可从本页链接。
相似文章
@NousResearch:今天我们发布对比神经元归因(CNA),一种通过识别和消融稀疏电路来引导LLM行为的方法…
NousResearch 发布了对比神经元归因(CNA),该方法通过消融稀疏的 MLP 电路来引导 LLM 行为,无需训练稀疏自编码器或降低基准测试性能,并在多达 70B 参数的模型的拒绝电路上验证了有效性。
@NousResearch: 为了检查CNA是否只隔离了预期行为,我们评估了MMLU上不同转向强度下的转向模型……
Nous Research 发布了对比神经元归因(CNA),这是一种通过识别和消融MLP神经元中稀疏电路来引导LLM行为的方法,无需训练稀疏自编码器或降低通用基准性能,已在多个大型语言模型上得到验证。
CANTANTE:通过对比信用分配优化智能体系统 [R]
CANTANTE 引入了一种对比信用分配方法,通过将全局奖励分解为每个智能体的信号,优化多智能体 LLM 系统,从而实现自动化提示调优。在编程、数学和检索基准测试中,它超越了基线方法,在不增加推理成本的情况下实现了最高 +18.9 分的提升。
PromptNCE: 仅使用大语言模型和对比估计提示的点互信息预测
本文介绍了PromptNCE,一种使用大语言模型和对比提示来零样本估计点互信息的方法,在三个数据集上实现了与人类标注真实值的高度相关性。
No-Worse Context-Aware Decoding:在上下文条件生成中防止中性退化
本文提出了一种名为 NWCAD(No-Worse Context-Aware Decoding)的解码阶段适配器。该方法旨在防止“中性退化”问题,即大语言模型(LLM)在处理无信息量上下文时,错误覆盖原有正确答案。NWCAD 采用双流架构设计,并通过门控机制实现对无上下文解码的安全回退。