APEX:面向 AI 生成音乐的规模化多任务美学感知流行度预测

Hugging Face Daily Papers 论文

摘要

APEX 是一个大规模的 multi-task learning 框架,利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度,在不同的生成架构上展现出了强大的泛化能力。

音乐流行度预测日益受到研究关注,这对艺术家、平台和推荐系统都具有重要意义。然而,AI 生成音乐平台的爆发式增长创造了一个全新且尚未充分探索的领域:每天有海量歌曲被创作和消费,却缺乏传统的艺术家声誉或唱片公司支持等标志。在这一进程中,关键却未被充分探索的因素是美学质量。我们提出了 APEX,这是首个针对 AI 生成音乐的规模化多任务学习框架。该框架在来自 Suno 和 Udio 的超过 21.1 万首歌曲(10,000 小时音频)上进行训练,基于从 MERT(一种自监督音乐理解模型)中提取的冻结音频嵌入,联合预测基于参与度的流行度信号(流媒体播放量和点赞数)以及五个感知美学质量维度。美学质量和流行度捕捉了音乐互补的两个方面,二者结合证明具有极高价值:在 Music Arena 数据集上进行分布外(out-of-distribution)评估时,该数据集包含了训练期间未见过的 11 种生成音乐系统之间的人为偏好两两对战结果,加入美学特征始终能改善偏好预测效果,证明了所学表征在不同生成架构之间具有强大的泛化能力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:06

论文页面 - APEX:用于生成式音乐的大规模多任务美学感知流行度预测

来源:https://huggingface.co/papers/2605.03395

摘要

一种针对生成式音乐的大规模多任务学习框架,利用自监督音乐理解模型中的冻结音频嵌入(frozen audio embeddings)来同时预测流行度和美学质量,在跨不同生成架构时展现出强大的泛化能力。

音乐流行度预测吸引了越来越多的研究兴趣,与艺术家、平台及推荐系统密切相关。然而,生成式音乐平台的爆炸式增长创造了一个全新的、很大程度上未被探索的领域,每天产生并消耗大量歌曲,且缺乏传统的艺术家声誉或唱片公司支持等标记。在这一探索中,关键却尚未被充分研究的是美学质量。我们提出了 APEX,这是首个针对生成式音乐的大规模多任务学习框架,基于来自 Suno 和 Udio 的超过 21.1 万首歌曲(1 万小时的音频)进行训练,利用从自监督音乐理解模型 MERT 中提取的冻结音频嵌入,联合预测基于参与度的流行度信号——流媒体播放量和点赞评分——以及五个感知美学质量维度。美学质量和流行度捕捉了音乐的互补方面,二者结合被证明极具价值:在 Music Arena 数据集上的分布外评估中,该数据集包含在训练期间未见的十一个生成音乐系统之间的人类偏好对抗测试,加入美学特征始终能提升偏好预测性能,表明所学表征在跨生成架构方面具有强大的泛化能力。

查看 arXiv 页面 (https://arxiv.org/abs/2605.03395) 查看 PDF (https://arxiv.org/pdf/2605.03395) GitHub5 (https://github.com/AMAAI-Lab/apex) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03395)

社区

论文作者

论文提交者

1 天前 (https://huggingface.co/papers/2605.03395#69fc20581646e9812610d2b4)

基于流媒体播放量和点赞评分,采用大规模美学感知 AI 音乐热门预测模型。

通过拖拽到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处上传图片

在你的智能体中获取此论文:

hf papers read 2605\.03395

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

amaai-lab/apex 特征提取 • 更新于1天前 • 286 • 3 (https://huggingface.co/amaai-lab/apex)

引用此论文的数据集0

暂无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.03395 以在此页面建立链接。

引用此论文的应用空间0

暂无应用空间关联此论文

请在应用空间的 README.md 中引用 arxiv.org/abs/2605.03395 以在此页面建立链接。

包含此论文的合集1

相似文章

ArtifactNet:通过法证残差物理学检测AI生成音乐

Hugging Face Daily Papers

ArtifactNet是一个轻量级神经网络框架,通过分析音频信号中的编码器特定工件来检测AI生成的音乐,在新的6,183轨道基准测试(ArtifactBench)上达到F1=0.9829,参数量比竞争方法少49倍。该方法采用法证物理学原理,通过有界掩码UNet和紧凑型CNN提取编码器残差,编码器感知训练将跨编码器漂移减少83%。

Jukebox

OpenAI Blog

# Jukebox 来源:[https://openai.com/index/jukebox/](https://openai.com/index/jukebox/) 自动音乐生成的历史已有半个多世纪\.[1](https://openai.com/index/jukebox/#citation-bottom-1),[2](https://openai.com/index/jukebox/#citation-bottom-2),[3](https://openai.com/index/jukebox/#citation-bottom-3),[4](https://openai.com/index/jukebox/#citation-bottom-4)一个主要的方法是以钢琴卷的形式生成符号音乐,它指定了时序和音高

Music AI Sandbox 推出新功能,访问权限扩大

Google DeepMind Blog

Google DeepMind 扩展了 Music AI Sandbox,新增功能包括 Lyria 2 音乐生成模型,并向美国音乐人开放更广泛的访问权限,通过用于生成、扩展和编辑音乐内容的工具来实现 AI 辅助音乐创作。

从人类偏好中学习

OpenAI Blog

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。