emergent-alignment

#emergent-alignment

涌现对齐

arXiv cs.AI ↗ · 5天前缓存

本文介绍了涌现对齐（Emergent Alignment）这一自监督方法，该方法为大型语言模型（LLMs）赋予一个“良心”步骤，用于审查自身输出，并利用直接偏好优化（DPO）引导模型远离非伦理行为，从而实现在无需外部评判者的情况下进行在线对齐。

0 人收藏 0 人点赞