neuron-attribution

#neuron-attribution

@NousResearch: 为了检查CNA是否只隔离了预期行为，我们评估了MMLU上不同转向强度下的转向模型……

X AI KOLs Following ↗ · 2026-05-19 缓存

Nous Research 发布了对比神经元归因（CNA），这是一种通过识别和消融MLP神经元中稀疏电路来引导LLM行为的方法，无需训练稀疏自编码器或降低通用基准性能，已在多个大型语言模型上得到验证。

0 人收藏 0 人点赞