标签
本文提出了一种大型语言模型非线性干预的通用公式,超越了线性表示假说,能够操控沿非线性流形编码的特征,并通过拒绝规避引导验证了该方法。
本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。