pretraining-alignment

标签

Cards List
#pretraining-alignment

超越安全数据:使用正则安全反射的预训练阶段对齐

arXiv cs.AI · 6天前 缓存

本文提出安全反射预训练(Safety Reflection Pretraining)方法,通过将正则安全反射集成到预训练语料中,直接将自我监控嵌入语言建模,实验表明在1.7B模型中提升了安全对齐效果并降低了攻击成功率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈