@NousResearch: 为了检查CNA是否只隔离了预期行为，我们评估了MMLU上不同转向强度下的转向模型……

X AI KOLs Following 2026/05/19 16:47 论文

steering neuron-attribution ablation llm interpretability mlp

摘要

Nous Research 发布了对比神经元归因（CNA），这是一种通过识别和消融MLP神经元中稀疏电路来引导LLM行为的方法，无需训练稀疏自编码器或降低通用基准性能，已在多个大型语言模型上得到验证。

今天，我们发布了对比神经元归因（CNA），这是一种通过识别并消融MLP基座中的稀疏电路来引导LLM行为的方法，无需训练稀疏自编码器、修改权重或降低通用能力基准。给定一小组成对的对比提示，它们能引发目标行为及其相反行为，CNA会分离出MLP神经元中激活值差异最大的前0.1%。消融这一小稀疏电路可移除相关行为，同时保持模型其余部分完好，且该干预在残差流方法（如对比激活加法CAA）开始失效的高强度下依然稳健。已在8个指令微调模型的拒绝电路上得到验证，包括Llama-3.1-70B、Llama-3.2-3B、Qwen2.5-72B和Qwen2.5-14B。 CNA 的工作由 @yaboilyrical 主导，@qorprate 和 @karan4d 提供支持。

查看原文

查看缓存全文

缓存时间: 2026/05/19 16:50

今天我们发布了对比神经元归因（Contrastive Neuron Attribution, CNA）方法，该方法通过识别并在MLP基中消融稀疏电路来引导LLM行为，无需训练稀疏自编码器、修改权重或降低通用能力基准。

给定一组小型对比提示对，这些提示对能激发目标行为及其相反行为，CNA会分离出激活值在两个集合中差异最大的前0.1%的MLP神经元。消融这一小部分电路即可移除该行为，同时保持模型其余部分不变，且在对比激活添加（CAA）等残差流方法开始退化的高干预强度下，该干预仍保持稳健性。

该方法已在8个经过指令微调的模型上验证了其拒绝电路，包括Llama-3.1-70B、Llama-3.2-3B、Qwen2.5-72B和Qwen2.5-14B。

CNA的研究工作由@yaboilyrical主导，@qorprate和@karan4d提供支持。

@NousResearch: 为了检查CNA是否只隔离了预期行为，我们评估了MMLU上不同转向强度下的转向模型……

相似文章

@NousResearch：今天我们发布对比神经元归因（CNA），一种通过识别和消融稀疏电路来引导LLM行为的方法…

基于对比对搜索的靶向神经元调控

@AnthropicAI：为了支持其他研究人员获得NLA的实践经验，我们与Neuronpedia合作，在…上发布了NLA

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

单个神经元足以绕过大型语言模型的安全对齐

提交意见反馈