ArtifactNet:通过法证残差物理学检测AI生成音乐
摘要
ArtifactNet是一个轻量级神经网络框架,通过分析音频信号中的编码器特定工件来检测AI生成的音乐,在新的6,183轨道基准测试(ArtifactBench)上达到F1=0.9829,参数量比竞争方法少49倍。该方法采用法证物理学原理,通过有界掩码UNet和紧凑型CNN提取编码器残差,编码器感知训练将跨编码器漂移减少83%。
查看缓存全文
缓存时间: 2026/04/20 08:27
论文页面 - ArtifactNet:通过法医残差物理检测AI生成音乐
来源:https://huggingface.co/papers/2604.16254
摘要
ArtifactNet 使用轻量级神经网络框架,通过分析音频信号中的编码器特定伪影来检测AI生成的音乐,通过编码器感知训练和高效架构设计实现了比现有方法更优的性能。
我们提出了 ArtifactNet,一个轻量级框架,通过将问题重新定义为法医物理学(https://huggingface.co/papers?q=forensic%20physics)——提取和分析神经音频编码器必然在生成音频上留下的物理伪影——来检测AI生成的音乐。有界掩码UNet(ArtifactUNet(https://huggingface.co/papers?q=ArtifactUNet),360万参数)从幅度频谱图(https://huggingface.co/papers?q=magnitude%20spectrograms)中提取编码器残差(https://huggingface.co/papers?q=codec%20residuals),然后通过HPSS(https://huggingface.co/papers?q=HPSS)分解为7通道法医特征,供紧凑型CNN(https://huggingface.co/papers?q=compact%20CNN)(40万参数;共400万)分类。我们引入了 ArtifactBench(https://huggingface.co/papers?q=ArtifactBench),一个多生成器评估基准,包含6,183个音轨(来自22个生成器的4,383个AI音乐和来自6个不同来源的1,800个真实音乐)。每个音轨都标记了 bench_origin 以用于公平的零样本评估。在不可见的测试集(n=2,263)上,ArtifactNet 达到 F1 = 0.9829,FPR = 1.49%,相比之下 CLAM(F1 = 0.7576,FPR = 69.26%)和 SpecTTTra(F1 = 0.7713,FPR = 19.43%)在相同条件下使用已发布的检查点进行评估。编码器感知训练(https://huggingface.co/papers?q=Codec-aware%20training)(4路WAV/MP3/AAC/Opus增强)进一步将跨编码器概率漂移(https://huggingface.co/papers?q=cross-codec%20probability%20drift)降低了83%(Delta = 0.95 → 0.16),解决了主要的编码器不变性失败模式。这些结果确立了法医物理学——直接提取编码器级伪影——作为一种比表征学习(https://huggingface.co/papers?q=representation%20learning)更通用且参数高效的AI音乐检测范式,使用的参数比CLAM少49倍,比SpecTTTra少4.8倍。
查看arXiv页面(https://arxiv.org/abs/2604.16254)查看PDF(https://arxiv.org/pdf/2604.16254)项目页面(https://demo.intrect.io/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16254)
引用此论文的模型1
intrect/artifactnet 音频分类• 约5小时前更新(https://huggingface.co/intrect/artifactnet)
引用此论文的数据集1
intrect/artifactbench 查看器• 约6小时前更新 • 4.4k • 59(https://huggingface.co/datasets/intrect/artifactbench)
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2604.16254以从此页面链接它。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接它。
相似文章
APEX:面向 AI 生成音乐的规模化多任务美学感知流行度预测
APEX 是一个大规模的 multi-task learning 框架,利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度,在不同的生成架构上展现出了强大的泛化能力。
最佳本地AI音乐生成器来了!免费无限制
ACE-Step 1.5 XL是一款开源音乐生成器,在质量与速度上超越Suno与Udio,仅需12 GB GPU即可无限运行,生成速度约120×实时。
MuseNet
OpenAI 发布了 MuseNet,一个基于 GPT-2 架构的深度神经网络,通过从数十万个 MIDI 文件中学习模式,能够生成 4 分钟的音乐作品,包含 10 种乐器。该模型可以结合多种音乐风格并以新颖的方式融合它们。
理解我们在线看到和听到的内容来源
OpenAI宣布推出工具和研究成果,帮助验证内容真实性,包括文本水印、元数据方法和扩展的图像检测,以及与C2PA元数据集成,用于追踪AI生成和编辑的内容。
Deezer 称 44% 的新上传音乐为 AI 生成,其中大部分流量造假
Deezer 报告显示,44% 的新上传音乐由 AI 生成,主要用于刷量欺诈;平台已将其排除在推荐之外,并点名 Lyria 3、Suno、Udio 为幕后推手。