标签
本文介绍了涌现对齐(Emergent Alignment)这一自监督方法,该方法为大型语言模型(LLMs)赋予一个“良心”步骤,用于审查自身输出,并利用直接偏好优化(DPO)引导模型远离非伦理行为,从而实现在无需外部评判者的情况下进行在线对齐。