@NousResearch：今天我们发布对比神经元归因（CNA），一种通过识别和消融稀疏电路来引导LLM行为的方法…

X AI KOLs Following 2026/05/19 16:47 论文

摘要

NousResearch 发布了对比神经元归因（CNA），该方法通过消融稀疏的 MLP 电路来引导 LLM 行为，无需训练稀疏自编码器或降低基准测试性能，并在多达 70B 参数的模型的拒绝电路上验证了有效性。

今天我们发布对比神经元归因（CNA），一种通过识别和消融 MLP 基中的稀疏电路来引导 LLM 行为的方法，无需训练稀疏自编码器、修改权重或降低通用能力基准测试性能。给定少量对比提示对，这些提示对可引发目标行为及其相反行为，CNA 可分离出两组之间激活差异最大的前 0.1% 的 MLP 神经元。消融该小电路可移除该行为，同时保持模型其余部分完好，并且在残差流方法（如对比激活加法 CAA）开始失效的高强度下，该干预仍保持稳健。该方法在 8 个指令微调模型的拒绝电路上进行了验证，包括 Llama-3.1-70B、Llama-3.2-3B、Qwen2.5-72B 和 Qwen2.5-14B。 CNA 的工作由 @yaboilyrical 领导，并得到 @qorprate 和 @karan4d 的支持。

查看原文

查看缓存全文

缓存时间: 2026/05/19 16:50

今天我们发布了 Contrastive Neuron Attribution（CNA）——一种引导大语言模型行为的方法。该方法通过在 MLP 基座中识别并消融稀疏回路来实现，无需训练稀疏自编码器、修改权重，也不会降低通用能力基准。

给定一组少量对比提示对（分别触发目标行为及其相反行为），CNA 可筛选出在两个集合中激活差异最大的前 0.1% 的 MLP 神经元。消融这一微小回路即可消除该行为，同时保持模型其余部分完好无损。在较高干预强度下，该方法依然稳健，而残差流方法（如 Contrastive Activation Addition，CAA）在该强度下已开始退化。

该方法已在 8 个指令微调模型（包括 Llama-3.1-70B、Llama-3.2-3B、Qwen2.5-72B 和 Qwen2.5-14B）的拒绝电路上得到验证。

CNA 的研究工作由 @yaboilyrical 主导，@qorprate 和 @karan4d 提供支持。

@NousResearch：今天我们发布对比神经元归因（CNA），一种通过识别和消融稀疏电路来引导LLM行为的方法…

相似文章

@NousResearch: 为了检查CNA是否只隔离了预期行为，我们评估了MMLU上不同转向强度下的转向模型……

基于对比对搜索的靶向神经元调控

基于同族架构引导的LLM驱动神经网络生成：迁移与适应的解耦

CANTANTE：通过对比信用分配优化智能体系统 [R]

@AnthropicAI：为了支持其他研究人员获得NLA的实践经验，我们与Neuronpedia合作，在…上发布了NLA

提交意见反馈