APEX:面向 AI 生成音乐的规模化多任务美学感知流行度预测
摘要
APEX 是一个大规模的 multi-task learning 框架,利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度,在不同的生成架构上展现出了强大的泛化能力。
查看缓存全文
缓存时间: 2026/05/08 08:06
论文页面 - APEX:用于生成式音乐的大规模多任务美学感知流行度预测
来源:https://huggingface.co/papers/2605.03395
摘要
一种针对生成式音乐的大规模多任务学习框架,利用自监督音乐理解模型中的冻结音频嵌入(frozen audio embeddings)来同时预测流行度和美学质量,在跨不同生成架构时展现出强大的泛化能力。
音乐流行度预测吸引了越来越多的研究兴趣,与艺术家、平台及推荐系统密切相关。然而,生成式音乐平台的爆炸式增长创造了一个全新的、很大程度上未被探索的领域,每天产生并消耗大量歌曲,且缺乏传统的艺术家声誉或唱片公司支持等标记。在这一探索中,关键却尚未被充分研究的是美学质量。我们提出了 APEX,这是首个针对生成式音乐的大规模多任务学习框架,基于来自 Suno 和 Udio 的超过 21.1 万首歌曲(1 万小时的音频)进行训练,利用从自监督音乐理解模型 MERT 中提取的冻结音频嵌入,联合预测基于参与度的流行度信号——流媒体播放量和点赞评分——以及五个感知美学质量维度。美学质量和流行度捕捉了音乐的互补方面,二者结合被证明极具价值:在 Music Arena 数据集上的分布外评估中,该数据集包含在训练期间未见的十一个生成音乐系统之间的人类偏好对抗测试,加入美学特征始终能提升偏好预测性能,表明所学表征在跨生成架构方面具有强大的泛化能力。
查看 arXiv 页面 (https://arxiv.org/abs/2605.03395) 查看 PDF (https://arxiv.org/pdf/2605.03395) GitHub5 (https://github.com/AMAAI-Lab/apex) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03395)
社区
论文作者
论文提交者
1 天前 (https://huggingface.co/papers/2605.03395#69fc20581646e9812610d2b4)
基于流媒体播放量和点赞评分,采用大规模美学感知 AI 音乐热门预测模型。
通过拖拽到文本输入框、粘贴或点击此处上传图片、音频和视频。
点击或粘贴此处上传图片
在你的智能体中获取此论文:
hf papers read 2605\.03395
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
amaai-lab/apex 特征提取 • 更新于1天前 • 286 • 3 (https://huggingface.co/amaai-lab/apex)
引用此论文的数据集0
暂无数据集关联此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2605.03395 以在此页面建立链接。
引用此论文的应用空间0
暂无应用空间关联此论文
请在应用空间的 README.md 中引用 arxiv.org/abs/2605.03395 以在此页面建立链接。
包含此论文的合集1
相似文章
ArtifactNet:通过法证残差物理学检测AI生成音乐
ArtifactNet是一个轻量级神经网络框架,通过分析音频信号中的编码器特定工件来检测AI生成的音乐,在新的6,183轨道基准测试(ArtifactBench)上达到F1=0.9829,参数量比竞争方法少49倍。该方法采用法证物理学原理,通过有界掩码UNet和紧凑型CNN提取编码器残差,编码器感知训练将跨编码器漂移减少83%。
最佳本地AI音乐生成器来了!免费无限制
ACE-Step 1.5 XL是一款开源音乐生成器,在质量与速度上超越Suno与Udio,仅需12 GB GPU即可无限运行,生成速度约120×实时。
Jukebox
# Jukebox 来源:[https://openai.com/index/jukebox/](https://openai.com/index/jukebox/) 自动音乐生成的历史已有半个多世纪\.[1](https://openai.com/index/jukebox/#citation-bottom-1),[2](https://openai.com/index/jukebox/#citation-bottom-2),[3](https://openai.com/index/jukebox/#citation-bottom-3),[4](https://openai.com/index/jukebox/#citation-bottom-4)一个主要的方法是以钢琴卷的形式生成符号音乐,它指定了时序和音高
Music AI Sandbox 推出新功能,访问权限扩大
Google DeepMind 扩展了 Music AI Sandbox,新增功能包括 Lyria 2 音乐生成模型,并向美国音乐人开放更广泛的访问权限,通过用于生成、扩展和编辑音乐内容的工具来实现 AI 辅助音乐创作。
从人类偏好中学习
OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。