标签
本综述将大型语言模型的对齐微调重新表述为一个数据流水线设计问题,将其分解为三个环节:响应合成、偏好评估和偏好实例化。它识别了设计权衡和失败模式,并概述了开放挑战,如提示级对齐和智能体设置。
本文介绍了CroCo,一种基于自生成响应的跨语言对比偏好调优方法,表明在英语偏好上训练的奖励模型能够有效对其他语言的响应进行排序,在无需特定语言标注的情况下,提升模型在14种语言上的性能。
宣布即将发布一个关于训练小型模型用于偏好调优的视频,涵盖奖励模型、RLHF、DPO、ORPO,以及Unsloth和TRL的使用。