emergent-alignment

标签

Cards List
#emergent-alignment

涌现对齐

arXiv cs.AI · 5天前 缓存

本文介绍了涌现对齐(Emergent Alignment)这一自监督方法,该方法为大型语言模型(LLMs)赋予一个“良心”步骤,用于审查自身输出,并利用直接偏好优化(DPO)引导模型远离非伦理行为,从而实现在无需外部评判者的情况下进行在线对齐。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈