@NousResearch:今天我们发布对比神经元归因(CNA),一种通过识别和消融稀疏电路来引导LLM行为的方法…
摘要
NousResearch 发布了对比神经元归因(CNA),该方法通过消融稀疏的 MLP 电路来引导 LLM 行为,无需训练稀疏自编码器或降低基准测试性能,并在多达 70B 参数的模型的拒绝电路上验证了有效性。
查看缓存全文
缓存时间: 2026/05/19 16:50
今天我们发布了 Contrastive Neuron Attribution(CNA)——一种引导大语言模型行为的方法。该方法通过在 MLP 基座中识别并消融稀疏回路来实现,无需训练稀疏自编码器、修改权重,也不会降低通用能力基准。
给定一组少量对比提示对(分别触发目标行为及其相反行为),CNA 可筛选出在两个集合中激活差异最大的前 0.1% 的 MLP 神经元。消融这一微小回路即可消除该行为,同时保持模型其余部分完好无损。在较高干预强度下,该方法依然稳健,而残差流方法(如 Contrastive Activation Addition,CAA)在该强度下已开始退化。
该方法已在 8 个指令微调模型(包括 Llama-3.1-70B、Llama-3.2-3B、Qwen2.5-72B 和 Qwen2.5-14B)的拒绝电路上得到验证。
CNA 的研究工作由 @yaboilyrical 主导,@qorprate 和 @karan4d 提供支持。
相似文章
@NousResearch: 为了检查CNA是否只隔离了预期行为,我们评估了MMLU上不同转向强度下的转向模型……
Nous Research 发布了对比神经元归因(CNA),这是一种通过识别和消融MLP神经元中稀疏电路来引导LLM行为的方法,无需训练稀疏自编码器或降低通用基准性能,已在多个大型语言模型上得到验证。
基于对比对搜索的靶向神经元调控
对比神经元归因(CNA)识别出一组稀疏的MLP神经元,这些神经元能够区分有害提示和良性提示,从而在指令微调的大语言模型中实现有效的行为引导,同时不会降低输出质量。该方法在越狱基准测试上将拒绝率降低了50%以上,同时保持了流畅性。
CANTANTE:通过对比信用分配优化智能体系统 [R]
CANTANTE 引入了一种对比信用分配方法,通过将全局奖励分解为每个智能体的信号,优化多智能体 LLM 系统,从而实现自动化提示调优。在编程、数学和检索基准测试中,它超越了基线方法,在不增加推理成本的情况下实现了最高 +18.9 分的提升。
@AnthropicAI:为了支持其他研究人员获得NLA的实践经验,我们与Neuronpedia合作,在…上发布了NLA
Anthropic与Neuronpedia合作,在开放模型上发布了自然语言自编码器(NLAs),使研究人员能够获得这种可解释性工具的实践经验。
真实场景下的对比归因:针对现实基准中大模型失效的可解释性分析
研究者采用基于LRP的对比归因方法,分析大模型在现实基准中失败的原因,发现该方法在某些场景下能提供有用信号,但并非始终可靠。