refusal-steering

标签

Cards List
#refusal-steering

专家感知的拒绝引导

arXiv cs.CL · 3天前 缓存

本文将拒绝引导(基于激活的越狱方法)扩展至混合专家(MoE)大语言模型,发现 MoE 的路由模式并不会阻碍引导效果,并提出了专家感知方法,可基于单个专家的输出来抑制拒绝行为。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈