标签
本文介绍CLIPR,一个从最少的对话输入中学习可转移的潜在用户偏好的框架,以改进LLM中与人类一致的决策。
本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。
WildFeedback是一个新颖的框架,它利用真实LLM对话中的原位用户反馈来自动创建偏好数据集,用于将语言模型与人类偏好对齐,解决了传统基于标注的对齐方法中的可扩展性和偏差问题。