ArtifactNet:通过法证残差物理学检测AI生成音乐
摘要
ArtifactNet是一个轻量级神经网络框架,通过分析音频信号中的编码器特定工件来检测AI生成的音乐,在新的6,183轨道基准测试(ArtifactBench)上达到F1=0.9829,参数量比竞争方法少49倍。该方法采用法证物理学原理,通过有界掩码UNet和紧凑型CNN提取编码器残差,编码器感知训练将跨编码器漂移减少83%。
查看缓存全文
缓存时间: 2026/04/20 08:27
论文页面 - ArtifactNet:通过法医残差物理检测AI生成音乐
来源:https://huggingface.co/papers/2604.16254
摘要
ArtifactNet 使用轻量级神经网络框架,通过分析音频信号中的编码器特定伪影来检测AI生成的音乐,通过编码器感知训练和高效架构设计实现了比现有方法更优的性能。
我们提出了 ArtifactNet,一个轻量级框架,通过将问题重新定义为法医物理学(https://huggingface.co/papers?q=forensic%20physics)——提取和分析神经音频编码器必然在生成音频上留下的物理伪影——来检测AI生成的音乐。有界掩码UNet(ArtifactUNet(https://huggingface.co/papers?q=ArtifactUNet),360万参数)从幅度频谱图(https://huggingface.co/papers?q=magnitude%20spectrograms)中提取编码器残差(https://huggingface.co/papers?q=codec%20residuals),然后通过HPSS(https://huggingface.co/papers?q=HPSS)分解为7通道法医特征,供紧凑型CNN(https://huggingface.co/papers?q=compact%20CNN)(40万参数;共400万)分类。我们引入了 ArtifactBench(https://huggingface.co/papers?q=ArtifactBench),一个多生成器评估基准,包含6,183个音轨(来自22个生成器的4,383个AI音乐和来自6个不同来源的1,800个真实音乐)。每个音轨都标记了 bench_origin 以用于公平的零样本评估。在不可见的测试集(n=2,263)上,ArtifactNet 达到 F1 = 0.9829,FPR = 1.49%,相比之下 CLAM(F1 = 0.7576,FPR = 69.26%)和 SpecTTTra(F1 = 0.7713,FPR = 19.43%)在相同条件下使用已发布的检查点进行评估。编码器感知训练(https://huggingface.co/papers?q=Codec-aware%20training)(4路WAV/MP3/AAC/Opus增强)进一步将跨编码器概率漂移(https://huggingface.co/papers?q=cross-codec%20probability%20drift)降低了83%(Delta = 0.95 → 0.16),解决了主要的编码器不变性失败模式。这些结果确立了法医物理学——直接提取编码器级伪影——作为一种比表征学习(https://huggingface.co/papers?q=representation%20learning)更通用且参数高效的AI音乐检测范式,使用的参数比CLAM少49倍,比SpecTTTra少4.8倍。
查看arXiv页面(https://arxiv.org/abs/2604.16254)查看PDF(https://arxiv.org/pdf/2604.16254)项目页面(https://demo.intrect.io/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16254)
引用此论文的模型1
intrect/artifactnet 音频分类• 约5小时前更新(https://huggingface.co/intrect/artifactnet)
引用此论文的数据集1
intrect/artifactbench 查看器• 约6小时前更新 • 4.4k • 59(https://huggingface.co/datasets/intrect/artifactbench)
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2604.16254以从此页面链接它。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接它。
相似文章
Artifact-Bench:评估多模态大语言模型在检测与评估AI生成视频伪影方面的能力
Artifact-Bench是一个综合性基准,用于评估多模态大语言模型在检测和分析AI生成视频伪影方面的表现,揭示了它们的显著局限性以及与人类感知的错位。
APEX:面向 AI 生成音乐的规模化多任务美学感知流行度预测
APEX 是一个大规模的 multi-task learning 框架,利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度,在不同的生成架构上展现出了强大的泛化能力。
AI生成视频:好到不真实
一段AI生成的音乐视频在布料运动、手指互动和物理效果等细节上展现出前所未有的真实感,让人不禁好奇其使用了什么技术。
新AI音乐模型发布,演示效果惊人逼真
一款新AI音乐模型已发布,其演示音频听起来异常真实。
AI音乐标签降低参与度——即使是人类创作的也不例外
Wu和Holmes对399名美国参与者进行了一项研究,发现被标记为AI生成的歌曲在情感共鸣评分上低23%,收听时间少19%,尽管大多数听众无法准确区分AI音乐和人类创作的音乐。