基于对比对搜索的靶向神经元调控

Hugging Face Daily Papers 论文

摘要

对比神经元归因(CNA)识别出一组稀疏的MLP神经元,这些神经元能够区分有害提示和良性提示,从而在指令微调的大语言模型中实现有效的行为引导,同时不会降低输出质量。该方法在越狱基准测试上将拒绝率降低了50%以上,同时保持了流畅性。

语言模型经过指令微调以拒绝有害请求,但这种行为背后的机制仍知之甚少。流行的引导方法作用于残差流,在高干预强度下会降低输出连贯性,限制了其实用性。我们引入了对比神经元归因(CNA),该方法识别出0.1%的MLP神经元,其激活最能区分有害提示和良性提示,且仅需前向传播,无需梯度或辅助训练。在指令模型中,消融发现的电路可将标准越狱基准测试上的拒绝率降低50%以上,同时在所有干预强度下保持流畅性和非退化性。将CNA应用于Llama和Qwen架构(参数规模从1B到72B)的匹配基座模型和指令模型,我们发现基座模型包含类似的后期层判别结构,但引导这些神经元只会产生内容偏移,而非行为改变。这些结果表明,神经元级别的干预能够实现可靠的行为引导,而无需残差流方法的质量权衡。更广泛地说,我们的研究结果表明,对齐微调将预先存在的判别结构转化为一个稀疏、可靶向的拒绝门控。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:31

论文页面 - 通过对比对搜索实现目标神经元调控

来源:https://huggingface.co/papers/2605.12290

摘要

对比神经元归因能够识别出一小部分MLP神经元,这些神经元区分了指令微调语言模型中有害与无害的提示,从而在不影响输出质量的前提下实现有效的行为引导。

语言模型经过指令微调后会拒绝有害请求,但这一行为背后的机制仍不清楚。流行的引导方法作用于残差流(https://huggingface.co/papers?q=residual%20stream),但在高干预强度下会降低输出连贯性,限制其实用性。我们引入对比神经元归因(CNA)(https://huggingface.co/papers?q=contrastive%20neuron%20attribution),该方法识别出0.1%的MLP神经元(https://huggingface.co/papers?q=MLP%20neurons),其激活状态最能区分有害与无害提示,仅需前向传递,无需梯度或辅助训练。在指令模型中,消融所发现的回路可将标准越狱基准(https://huggingface.co/papers?q=jailbreak%20benchmark)上的拒绝率(https://huggingface.co/papers?q=refusal%20rates)降低超过50%,同时在所有引导强度下保持流畅性和非退化性。将CNA应用于Llama和Qwen架构(参数规模从1B到72B)的匹配基础模型和指令模型,我们发现基础模型包含类似的后期判别结构(https://huggingface.co/papers?q=discrimination%20structure),但引导这些神经元仅产生内容偏移,而非行为变化。这些结果表明,神经元层面的干预能够实现可靠的行为引导,且没有残差流方法的质量权衡。更广泛地说,我们的发现表明,对齐微调(https://huggingface.co/papers?q=alignment%20fine-tuning)将预先存在的判别结构(https://huggingface.co/papers?q=discrimination%20structure)转化为稀疏、可靶向的拒绝门(https://huggingface.co/papers?q=targetable%20refusal%20gate)。

查看arXiv页面(https://arxiv.org/abs/2605.12290)查看PDF(https://arxiv.org/pdf/2605.12290)项目页面(https://github.com/neuron-steering)GitHub0(https://github.com/NousResearch/neural-steering)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12290)

在您的代理中获取此论文:

hf papers read 2605\.12290

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2605.12290即可从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2605.12290即可从本页链接。

引用此论文的Space0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2605.12290即可从本页链接。

包含此论文的收藏0

没有收藏包含此论文

将本论文添加到收藏(https://huggingface.co/new-collection)即可从本页链接。

相似文章

CANTANTE:通过对比信用分配优化智能体系统 [R]

Reddit r/MachineLearning

CANTANTE 引入了一种对比信用分配方法,通过将全局奖励分解为每个智能体的信号,优化多智能体 LLM 系统,从而实现自动化提示调优。在编程、数学和检索基准测试中,它超越了基线方法,在不增加推理成本的情况下实现了最高 +18.9 分的提升。

No-Worse Context-Aware Decoding:在上下文条件生成中防止中性退化

arXiv cs.CL

本文提出了一种名为 NWCAD(No-Worse Context-Aware Decoding)的解码阶段适配器。该方法旨在防止“中性退化”问题,即大语言模型(LLM)在处理无信息量上下文时,错误覆盖原有正确答案。NWCAD 采用双流架构设计,并通过门控机制实现对无上下文解码的安全回退。