inlp

标签

Cards List
#inlp

超越单一方向的拒绝:Diff-in-Means与INLP的初步比较

arXiv cs.AI · 6天前 缓存

比较了Diff-in-Means和迭代零空间投影(INLP)方法在安全微调聊天模型中引导拒绝行为的效果,发现INLP反事实翻转在抑制拒绝方面与DiM方向消融相当,同时提供了更多可调性的干预手段。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈