preference-optimization

#preference-optimization

FSPO：少样本合成偏好优化实现面向真实用户的个性化

arXiv cs.CL ↗ · 2026-04-20 缓存

FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法，该算法将奖励建模重新定义为元学习，使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集，在合成用户上实现了87%的个性化性能，在真实用户上实现了70%的个性化性能。

0 人收藏 0 人点赞

#preference-optimization

arXiv cs.CL ↗ · 2026-04-20 缓存

CLewR引入了一种带重启的课程学习策略，用于通过偏好优化改进LLM的机器翻译性能。该方法通过多次迭代简易到困难的课程来解决灾难性遗忘问题，在Gemma2、Qwen2.5和Llama3.1模型上展现了一致的性能提升。

0 人收藏 0 人点赞

#preference-optimization

arXiv cs.CL ↗ · 2026-04-20 缓存

CiPO是一种新颖的机器遗忘框架，用于大型推理模型，它利用迭代偏好优化和反事实推理轨迹，在保持推理能力的同时选择性移除不想要的知识。该方法通过生成逻辑上有效的替代推理路径，解决了依赖于链式思维推理的模型中的遗忘挑战。

0 人收藏 0 人点赞

#preference-optimization

arXiv cs.CL ↗ · 2026-04-20 缓存

GroupDPO 引入了一种内存高效的分组直接偏好优化算法，该算法利用每个提示的多个候选响应，通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。

0 人收藏 0 人点赞

#preference-optimization

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

WavAlign 提出一种模态感知的自适应后训练方法，利用受限偏好更新与显式锚定，在端到端口语对话模型中同步提升语义质量与语音表现力。

0 人收藏 0 人点赞