TuneJury: 一个用于改进音乐生成偏好对齐的开放度量

Hugging Face Daily Papers 2026/06/15 00:00 论文

open-source reward-model text-to-music preference-alignment music-generation pairwise calibration

摘要

TuneJury 是一个开源的成对奖励模型，用于文本到音乐生成，提供校准的偏好评分，并泛化到多个下游应用。

我们介绍了 TuneJury，一个开放的、实例级别的成对奖励模型，用于文本到音乐生成，它从文本提示和音频片段中预测音乐偏好分数。发布的检查点基于公开可用的人类偏好标签进行训练，涵盖竞技场风格的投票（A vs. B）、度量对齐偏好对、众包成对比较和专家美学评分。两个片段之间的预测分数差距在我们的保留测试集上得到了良好的校准，支持通过简单的分数阈值进行数据过滤。TuneJury 能够泛化到保留测试对和分布外基准，在后者上与之前的基线保持竞争力。对于训练后发布的生成器，我们引入了锚定校准（anchor calibration），这是一种事后、按系统的 Bradley-Terry 校准，其数据效率远高于从头开始重新训练。同一个冻结的奖励在三个下游应用中带来一致的奖励轴增益：推理时的最佳N选择（best-of-N）、DITTO 式潜在优化和专家迭代后训练。TuneJury 的代码已在 https://github.com/yonghyunk1m/TuneJury 开源。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:34

论文页面 - TuneJury：一种改进音乐生成偏好对齐的开放指标

来源：https://huggingface.co/papers/2606.17006

摘要

一种新颖的开源成对奖励模型，用于文本到音乐生成，通过冻结奖励机制提供校准的偏好评分，并泛化到多种下游应用。

我们推出 TuneJury，这是一个开放的、实例级别的成对奖励模型（https://huggingface.co/papers?q=pairwise%20reward%20model），用于文本到音乐（https://huggingface.co/papers?q=text-to-music）任务，能够从文本提示和音频片段预测音乐偏好分数（https://huggingface.co/papers?q=music%20preference%20score）。发布的检查点基于公开的人类偏好标签（https://huggingface.co/papers?q=human-preference%20labels）进行训练，涵盖竞技场式（A vs. B）投票、指标对齐偏好对、众包成对比较以及专家审美评分。两个片段之间的预测分数差在我们保留的测试集上校准良好，支持通过简单的分数阈值进行数据过滤。TuneJury 能泛化到保留测试对和分布外基准测试，在后者上与前代基线保持竞争力。对于训练后发布的生成器，我们引入了锚定校准（https://huggingface.co/papers?q=anchor%20calibration），这是一种后处理的、每系统的 Bradley-Terry 校准（https://huggingface.co/papers?q=Bradley-Terry%20calibration），能够以比从头重新训练更优的数据效率恢复一致性。相同的冻结奖励在三个下游应用中带来了持续的奖励轴提升：推理时的最佳 N 选一（https://huggingface.co/papers?q=best-of-N%20selection）、DITTO 风格的潜在优化（https://huggingface.co/papers?q=latent%20optimization）以及专家迭代后训练（https://huggingface.co/papers?q=expert-iteration%20post-training）。TuneJury 可在 https://github.com/yonghyunk1m/TuneJury 获取。

查看 arXiv 页面（https://arxiv.org/abs/2606.17006）查看 PDF（https://arxiv.org/pdf/2606.17006）项目页面（https://huggingface.co/spaces/yonghyunk1m/TuneJury）GitHub0（https://github.com/yonghyunk1m/TuneJury）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.17006）

在你的代理中获取本文：

hf papers read 2606.17006

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型1

TuneJury/tunejury 更新于约 9 小时前（https://huggingface.co/TuneJury/tunejury）

引用本文的数据集0

没有引用本文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2606.17006，即可在本页面建立关联。

引用本文的 Spaces 应用4

包含本文的收藏0

没有包含本文的收藏

将本文添加到收藏（https://huggingface.co/new-collection），即可在本页面建立关联。

相似文章

通过人类偏好奖励改进文本到音乐生成

Hugging Face Daily Papers

本文提出了一种文本到音乐生成系统，利用奖励条件、专家迭代和偏好调优，在120M参数模型中提升音频质量，该模型提交至ICME 2026 ATTM Grand Challenge。

Jukebox

OpenAI Blog

# Jukebox 来源：[https://openai.com/index/jukebox/](https://openai.com/index/jukebox/) 自动音乐生成的历史已有半个多世纪\.[1](https://openai.com/index/jukebox/#citation-bottom-1),[2](https://openai.com/index/jukebox/#citation-bottom-2),[3](https://openai.com/index/jukebox/#citation-bottom-3),[4](https://openai.com/index/jukebox/#citation-bottom-4)一个主要的方法是以钢琴卷的形式生成符号音乐，它指定了时序和音高