preference-tuning

#preference-tuning

通过人类偏好奖励改进文本到音乐生成

Hugging Face Daily Papers ↗ · 2026-06-19 缓存

本文提出了一种文本到音乐生成系统，利用奖励条件、专家迭代和偏好调优，在120M参数模型中提升音频质量，该模型提交至ICME 2026 ATTM Grand Challenge。

0 人收藏 0 人点赞

#preference-tuning

arXiv cs.CL ↗ · 2026-05-27 缓存

本综述将大型语言模型的对齐微调重新表述为一个数据流水线设计问题，将其分解为三个环节：响应合成、偏好评估和偏好实例化。它识别了设计权衡和失败模式，并概述了开放挑战，如提示级对齐和智能体设置。

0 人收藏 0 人点赞

#preference-tuning

arXiv cs.CL ↗ · 2026-05-27 缓存

本文介绍了CroCo，一种基于自生成响应的跨语言对比偏好调优方法，表明在英语偏好上训练的奖励模型能够有效对其他语言的响应进行排序，在无需特定语言标注的情况下，提升模型在14种语言上的性能。

0 人收藏 0 人点赞

#preference-tuning

X AI KOLs Timeline ↗ · 2026-05-26 缓存

宣布即将发布一个关于训练小型模型用于偏好调优的视频，涵盖奖励模型、RLHF、DPO、ORPO，以及Unsloth和TRL的使用。

0 人收藏 0 人点赞