non-linear-interventions

标签

Cards List
#non-linear-interventions

大型语言模型的非线性干预

arXiv cs.CL · 16小时前 缓存

本文提出了一种大型语言模型非线性干预的通用公式,超越了线性表示假说,能够操控沿非线性流形编码的特征,并通过拒绝规避引导验证了该方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈