pretraining-alignment

#pretraining-alignment

超越安全数据：使用正则安全反射的预训练阶段对齐

arXiv cs.AI ↗ · 6天前缓存

本文提出安全反射预训练（Safety Reflection Pretraining）方法，通过将正则安全反射集成到预训练语料中，直接将自我监控嵌入语言建模，实验表明在1.7B模型中提升了安全对齐效果并降低了攻击成功率。

0 人收藏 0 人点赞