标签
本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。
本文提供因果证据表明自回归语言模型中的幻觉源于由非对称吸引子动力学驱动的早期轨迹承诺。通过在Qwen2.5-1.5B上进行同提示分叉和激活补丁实验,证明幻觉轨迹在首个token处分叉,并在模型各层间展现强烈的因果非对称性。