标签
本文研究训练对齐目标如何重塑大型语言模型的语言特征,发现指令微调系统坍塌语言熵的程度显著超过规模预期,并且熵正则化可以缓解这种坍塌。
本综述将大型语言模型的对齐微调重新表述为一个数据流水线设计问题,将其分解为三个环节:响应合成、偏好评估和偏好实例化。它识别了设计权衡和失败模式,并概述了开放挑战,如提示级对齐和智能体设置。