preference-optimization

标签

Cards List
#preference-optimization

FSPO:少样本合成偏好优化实现面向真实用户的个性化

arXiv cs.CL · 2026-04-20 缓存

FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法,该算法将奖励建模重新定义为元学习,使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集,在合成用户上实现了87%的个性化性能,在真实用户上实现了70%的个性化性能。

0 人收藏 0 人点赞
#preference-optimization

CLewR:用于机器翻译偏好学习的课程学习与重启策略

arXiv cs.CL · 2026-04-20 缓存

CLewR引入了一种带重启的课程学习策略,用于通过偏好优化改进LLM的机器翻译性能。该方法通过多次迭代简易到困难的课程来解决灾难性遗忘问题,在Gemma2、Qwen2.5和Llama3.1模型上展现了一致的性能提升。

0 人收藏 0 人点赞
#preference-optimization

CiPO:通过迭代偏好优化实现大型推理模型的反事实遗忘

arXiv cs.CL · 2026-04-20 缓存

CiPO是一种新颖的机器遗忘框架,用于大型推理模型,它利用迭代偏好优化和反事实推理轨迹,在保持推理能力的同时选择性移除不想要的知识。该方法通过生成逻辑上有效的替代推理路径,解决了依赖于链式思维推理的模型中的遗忘挑战。

0 人收藏 0 人点赞
#preference-optimization

GroupDPO:内存高效的分组直接偏好优化

arXiv cs.CL · 2026-04-20 缓存

GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。

0 人收藏 0 人点赞
#preference-optimization

WavAlign:通过自适应混合后训练提升口语对话模型的智能与表现力

Hugging Face Daily Papers · 2026-04-16 缓存

WavAlign 提出一种模态感知的自适应后训练方法,利用受限偏好更新与显式锚定,在端到端口语对话模型中同步提升语义质量与语音表现力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈