TuneJury: 一个用于改进音乐生成偏好对齐的开放度量
摘要
TuneJury 是一个开源的成对奖励模型,用于文本到音乐生成,提供校准的偏好评分,并泛化到多个下游应用。
查看缓存全文
缓存时间: 2026/06/16 11:34
论文页面 - TuneJury:一种改进音乐生成偏好对齐的开放指标
来源:https://huggingface.co/papers/2606.17006
摘要
一种新颖的开源成对奖励模型,用于文本到音乐生成,通过冻结奖励机制提供校准的偏好评分,并泛化到多种下游应用。
我们推出 TuneJury,这是一个开放的、实例级别的成对奖励模型(https://huggingface.co/papers?q=pairwise%20reward%20model),用于文本到音乐(https://huggingface.co/papers?q=text-to-music)任务,能够从文本提示和音频片段预测音乐偏好分数(https://huggingface.co/papers?q=music%20preference%20score)。发布的检查点基于公开的人类偏好标签(https://huggingface.co/papers?q=human-preference%20labels)进行训练,涵盖竞技场式(A vs. B)投票、指标对齐偏好对、众包成对比较以及专家审美评分。两个片段之间的预测分数差在我们保留的测试集上校准良好,支持通过简单的分数阈值进行数据过滤。TuneJury 能泛化到保留测试对和分布外基准测试,在后者上与前代基线保持竞争力。对于训练后发布的生成器,我们引入了锚定校准(https://huggingface.co/papers?q=anchor%20calibration),这是一种后处理的、每系统的 Bradley-Terry 校准(https://huggingface.co/papers?q=Bradley-Terry%20calibration),能够以比从头重新训练更优的数据效率恢复一致性。相同的冻结奖励在三个下游应用中带来了持续的奖励轴提升:推理时的最佳 N 选一(https://huggingface.co/papers?q=best-of-N%20selection)、DITTO 风格的潜在优化(https://huggingface.co/papers?q=latent%20optimization)以及专家迭代后训练(https://huggingface.co/papers?q=expert-iteration%20post-training)。TuneJury 可在 https://github.com/yonghyunk1m/TuneJury 获取。
查看 arXiv 页面(https://arxiv.org/abs/2606.17006)查看 PDF(https://arxiv.org/pdf/2606.17006)项目页面(https://huggingface.co/spaces/yonghyunk1m/TuneJury)GitHub0(https://github.com/yonghyunk1m/TuneJury)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17006)
在你的代理中获取本文:
hf papers read 2606.17006
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型1
TuneJury/tunejury 更新于约 9 小时前(https://huggingface.co/TuneJury/tunejury)
引用本文的数据集0
没有引用本文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2606.17006,即可在本页面建立关联。
引用本文的 Spaces 应用4
包含本文的收藏0
没有包含本文的收藏
将本文添加到收藏(https://huggingface.co/new-collection),即可在本页面建立关联。
相似文章
通过人类偏好奖励改进文本到音乐生成
本文提出了一种文本到音乐生成系统,利用奖励条件、专家迭代和偏好调优,在120M参数模型中提升音频质量,该模型提交至ICME 2026 ATTM Grand Challenge。
Jukebox
# Jukebox 来源:[https://openai.com/index/jukebox/](https://openai.com/index/jukebox/) 自动音乐生成的历史已有半个多世纪\.[1](https://openai.com/index/jukebox/#citation-bottom-1),[2](https://openai.com/index/jukebox/#citation-bottom-2),[3](https://openai.com/index/jukebox/#citation-bottom-3),[4](https://openai.com/index/jukebox/#citation-bottom-4)一个主要的方法是以钢琴卷的形式生成符号音乐,它指定了时序和音高
MERIT:学习解耦音乐表示以实现音频相似度
MERIT是一个框架,它通过条件音频生成和源分离音轨学习旋律、节奏和音色的解耦音乐表示,能够进行精细且特定因子的音频相似度查询。
文本转语音(TTS)基准测试更新:引入客观标准和盲投票(已涵盖46个模型,持续增加中)
更新后的TTS基准测试引入了客观标准和实时盲投票机制,为46+模型创建ELO排名,并向社区开放参与。
APEX:面向 AI 生成音乐的规模化多任务美学感知流行度预测
APEX 是一个大规模的 multi-task learning 框架,利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度,在不同的生成架构上展现出了强大的泛化能力。