preference-learning

#preference-learning

学习可转移的潜在用户偏好以实现与人类一致的决策

arXiv cs.AI ↗ · 昨天缓存

本文介绍CLIPR，一个从最少的对话输入中学习可转移的潜在用户偏好的框架，以改进LLM中与人类一致的决策。

0 人收藏 0 人点赞

#preference-learning

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 xi-DPO，这是一种新颖的偏好优化方法，通过将目标重构为最小化与最优比率奖励边际的距离，解决了 SimPO 中的超参数调整难题。实验结果表明，xi-DPO 在开放基准测试中优于现有方法。

0 人收藏 0 人点赞

#preference-learning

arXiv cs.CL ↗ · 2026-04-20 缓存

WildFeedback是一个新颖的框架，它利用真实LLM对话中的原位用户反馈来自动创建偏好数据集，用于将语言模型与人类偏好对齐，解决了传统基于标注的对齐方法中的可扩展性和偏差问题。

0 人收藏 0 人点赞