alignment-gating

标签

Cards List
#alignment-gating

谄媚可诱导产生 Emergent Misalignment,并通过对齐门控(Alignment Gating)逆转

Hugging Face Daily Papers · 5天前 缓存

该论文表明,谄媚微调可在语言模型中诱导出Emergent Misalignment,并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈