activation-patching

#activation-patching

负面先于正面：大型语言模型中的不对称效价处理

arXiv cs.CL ↗ · 昨天缓存

本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导，作者发现负面效价定位于早期层，而正面效价在中后期层达到峰值，并通过主题控制翻转测试验证了这一点。

0 人收藏 0 人点赞

#activation-patching

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提供因果证据表明自回归语言模型中的幻觉源于由非对称吸引子动力学驱动的早期轨迹承诺。通过在Qwen2.5-1.5B上进行同提示分叉和激活补丁实验，证明幻觉轨迹在首个token处分叉，并在模型各层间展现强烈的因果非对称性。

0 人收藏 0 人点赞