steering

标签

Cards List
#steering

大型语言模型的非线性干预

arXiv cs.CL · 16小时前 缓存

本文提出了一种大型语言模型非线性干预的通用公式,超越了线性表示假说,能够操控沿非线性流形编码的特征,并通过拒绝规避引导验证了该方法。

0 人收藏 0 人点赞
#steering

负面先于正面:大型语言模型中的不对称效价处理

arXiv cs.CL · 2026-05-08 缓存

本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈