基于对比对搜索的靶向神经元调控

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

对比神经元归因（CNA）识别出一组稀疏的MLP神经元，这些神经元能够区分有害提示和良性提示，从而在指令微调的大语言模型中实现有效的行为引导，同时不会降低输出质量。该方法在越狱基准测试上将拒绝率降低了50%以上，同时保持了流畅性。

语言模型经过指令微调以拒绝有害请求，但这种行为背后的机制仍知之甚少。流行的引导方法作用于残差流，在高干预强度下会降低输出连贯性，限制了其实用性。我们引入了对比神经元归因（CNA），该方法识别出0.1%的MLP神经元，其激活最能区分有害提示和良性提示，且仅需前向传播，无需梯度或辅助训练。在指令模型中，消融发现的电路可将标准越狱基准测试上的拒绝率降低50%以上，同时在所有干预强度下保持流畅性和非退化性。将CNA应用于Llama和Qwen架构（参数规模从1B到72B）的匹配基座模型和指令模型，我们发现基座模型包含类似的后期层判别结构，但引导这些神经元只会产生内容偏移，而非行为改变。这些结果表明，神经元级别的干预能够实现可靠的行为引导，而无需残差流方法的质量权衡。更广泛地说，我们的研究结果表明，对齐微调将预先存在的判别结构转化为一个稀疏、可靶向的拒绝门控。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:31

论文页面 - 通过对比对搜索实现目标神经元调控

来源：https://huggingface.co/papers/2605.12290

摘要

对比神经元归因能够识别出一小部分MLP神经元，这些神经元区分了指令微调语言模型中有害与无害的提示，从而在不影响输出质量的前提下实现有效的行为引导。

语言模型经过指令微调后会拒绝有害请求，但这一行为背后的机制仍不清楚。流行的引导方法作用于残差流（https://huggingface.co/papers?q=residual%20stream），但在高干预强度下会降低输出连贯性，限制其实用性。我们引入对比神经元归因（CNA）（https://huggingface.co/papers?q=contrastive%20neuron%20attribution），该方法识别出0.1%的MLP神经元（https://huggingface.co/papers?q=MLP%20neurons），其激活状态最能区分有害与无害提示，仅需前向传递，无需梯度或辅助训练。在指令模型中，消融所发现的回路可将标准越狱基准（https://huggingface.co/papers?q=jailbreak%20benchmark）上的拒绝率（https://huggingface.co/papers?q=refusal%20rates）降低超过50%，同时在所有引导强度下保持流畅性和非退化性。将CNA应用于Llama和Qwen架构（参数规模从1B到72B）的匹配基础模型和指令模型，我们发现基础模型包含类似的后期判别结构（https://huggingface.co/papers?q=discrimination%20structure），但引导这些神经元仅产生内容偏移，而非行为变化。这些结果表明，神经元层面的干预能够实现可靠的行为引导，且没有残差流方法的质量权衡。更广泛地说，我们的发现表明，对齐微调（https://huggingface.co/papers?q=alignment%20fine-tuning）将预先存在的判别结构（https://huggingface.co/papers?q=discrimination%20structure）转化为稀疏、可靶向的拒绝门（https://huggingface.co/papers?q=targetable%20refusal%20gate）。

查看arXiv页面（https://arxiv.org/abs/2605.12290）查看PDF（https://arxiv.org/pdf/2605.12290）项目页面（https://github.com/neuron-steering）GitHub0（https://github.com/NousResearch/neural-steering）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.12290）

在您的代理中获取此论文：

hf papers read 2605\.12290

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2605.12290即可从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2605.12290即可从本页链接。

引用此论文的Space0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2605.12290即可从本页链接。

包含此论文的收藏0

没有收藏包含此论文

将本论文添加到收藏（https://huggingface.co/new-collection）即可从本页链接。

基于对比对搜索的靶向神经元调控

论文页面 - 通过对比对搜索实现目标神经元调控

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

@NousResearch：今天我们发布对比神经元归因（CNA），一种通过识别和消融稀疏电路来引导LLM行为的方法…

@NousResearch: 为了检查CNA是否只隔离了预期行为，我们评估了MMLU上不同转向强度下的转向模型……

CANTANTE：通过对比信用分配优化智能体系统 [R]

PromptNCE: 仅使用大语言模型和对比估计提示的点互信息预测

No-Worse Context-Aware Decoding：在上下文条件生成中防止中性退化

提交意见反馈