APEX:面向 AI 生成音乐的规模化多任务美学感知流行度预测
摘要
APEX 是一个大规模的 multi-task learning 框架,利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度,在不同的生成架构上展现出了强大的泛化能力。
查看缓存全文
缓存时间: 2026/05/08 08:06
论文页面 - APEX:用于生成式音乐的大规模多任务美学感知流行度预测
来源:https://huggingface.co/papers/2605.03395
摘要
一种针对生成式音乐的大规模多任务学习框架,利用自监督音乐理解模型中的冻结音频嵌入(frozen audio embeddings)来同时预测流行度和美学质量,在跨不同生成架构时展现出强大的泛化能力。
音乐流行度预测吸引了越来越多的研究兴趣,与艺术家、平台及推荐系统密切相关。然而,生成式音乐平台的爆炸式增长创造了一个全新的、很大程度上未被探索的领域,每天产生并消耗大量歌曲,且缺乏传统的艺术家声誉或唱片公司支持等标记。在这一探索中,关键却尚未被充分研究的是美学质量。我们提出了 APEX,这是首个针对生成式音乐的大规模多任务学习框架,基于来自 Suno 和 Udio 的超过 21.1 万首歌曲(1 万小时的音频)进行训练,利用从自监督音乐理解模型 MERT 中提取的冻结音频嵌入,联合预测基于参与度的流行度信号——流媒体播放量和点赞评分——以及五个感知美学质量维度。美学质量和流行度捕捉了音乐的互补方面,二者结合被证明极具价值:在 Music Arena 数据集上的分布外评估中,该数据集包含在训练期间未见的十一个生成音乐系统之间的人类偏好对抗测试,加入美学特征始终能提升偏好预测性能,表明所学表征在跨生成架构方面具有强大的泛化能力。
查看 arXiv 页面 (https://arxiv.org/abs/2605.03395) 查看 PDF (https://arxiv.org/pdf/2605.03395) GitHub5 (https://github.com/AMAAI-Lab/apex) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03395)
社区
论文作者
论文提交者
1 天前 (https://huggingface.co/papers/2605.03395#69fc20581646e9812610d2b4)
基于流媒体播放量和点赞评分,采用大规模美学感知 AI 音乐热门预测模型。
通过拖拽到文本输入框、粘贴或点击此处上传图片、音频和视频。
点击或粘贴此处上传图片
在你的智能体中获取此论文:
hf papers read 2605\.03395
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
amaai-lab/apex 特征提取 • 更新于1天前 • 286 • 3 (https://huggingface.co/amaai-lab/apex)
引用此论文的数据集0
暂无数据集关联此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2605.03395 以在此页面建立链接。
引用此论文的应用空间0
暂无应用空间关联此论文
请在应用空间的 README.md 中引用 arxiv.org/abs/2605.03395 以在此页面建立链接。
包含此论文的合集1
相似文章
APEX: Adaptive Principle EXtraction — 面向生产级AI智能体的三层自进化框架
APEX 提出了一个面向生产级AI智能体的三层自进化框架,同时优化了控制层(harness)、行为原则和工作流拓扑。在生产级智能体上的实验显示,健康评分和工作流质量显著提升,且仅需极少的LLM调用。
ArtifactNet:通过法证残差物理学检测AI生成音乐
ArtifactNet是一个轻量级神经网络框架,通过分析音频信号中的编码器特定工件来检测AI生成的音乐,在新的6,183轨道基准测试(ArtifactBench)上达到F1=0.9829,参数量比竞争方法少49倍。该方法采用法证物理学原理,通过有界掩码UNet和紧凑型CNN提取编码器残差,编码器感知训练将跨编码器漂移减少83%。
APEX:一种面向无线边缘运营的网络原生时间序列基础模型,用于预测与异常检测
APEX是一个网络原生的解码器专用Transformer,针对无线边缘遥测数据的预测与异常检测而设计,预训练数据来自约4500个生产网络。在DHCP退化基准测试中,其MAE比最佳通用时间序列基础模型低18%,并能在边缘硬件上实现亚秒级推理。
APEX:具有动态数据选择的自动提示工程专家
APEX 引入了一种用于自动提示优化的动态数据选择策略,将数据集分层划分为简单、困难和混合三个层级,以提高数据效率,在多个基准测试中相对于初始提示取得了显著的性能提升。
通过人类偏好奖励改进文本到音乐生成
本文提出了一种文本到音乐生成系统,利用奖励条件、专家迭代和偏好调优,在120M参数模型中提升音频质量,该模型提交至ICME 2026 ATTM Grand Challenge。