contrastive-activation-additions

#contrastive-activation-additions

扮演魔鬼代言人：现成的角色向量在谄媚行为上可与针对性引导相媲美

arXiv cs.AI ↗ · 2026-05-22 缓存

本文探讨了现成的角色引导向量是否能减少大型语言模型中的谄媚行为，发现它们能达到针对性对比激活添加（CAA）效果的68-98%，且无需谄媚行为特定的训练数据，并认为谄媚行为更适合被理解为一种角色层面的属性。

0 人收藏 0 人点赞