ArtifactNet:通过法证残差物理学检测AI生成音乐

Hugging Face Daily Papers 论文

摘要

ArtifactNet是一个轻量级神经网络框架,通过分析音频信号中的编码器特定工件来检测AI生成的音乐,在新的6,183轨道基准测试(ArtifactBench)上达到F1=0.9829,参数量比竞争方法少49倍。该方法采用法证物理学原理,通过有界掩码UNet和紧凑型CNN提取编码器残差,编码器感知训练将跨编码器漂移减少83%。

我们提出了ArtifactNet,一个轻量级框架,通过将问题重新表述为法证物理学来检测AI生成的音乐——提取并分析神经音频编码器必然在生成音频上留下的物理工件。有界掩码UNet(ArtifactUNet,360万参数)从幅度谱图中提取编码器残差,然后通过HPSS分解为7通道法证特征,供紧凑型CNN分类器(40万参数;总计400万参数)使用。我们引入了ArtifactBench,一个多生成器评估基准,包含6,183个音轨(来自22个生成器的4,383个AI音轨和来自6个不同来源的1,800个真实音轨)。每个音轨都标记有bench_origin以进行公平的零样本评估。在未见过的测试集(n=2,263)上,ArtifactNet实现了F1=0.9829,FPR=1.49%,相比之下CLAM(F1=0.7576,FPR=69.26%)和SpecTTTra(F1=0.7713,FPR=19.43%)在相同条件下使用已发布的检查点进行评估。编码器感知训练(4路WAV/MP3/AAC/Opus增强)进一步将跨编码器概率漂移减少83%(Delta=0.95→0.16),解决了主要的编码器不变性失败模式。这些结果确立了法证物理学——直接提取编码器级工件——作为比表示学习更可泛化、更参数高效的AI音乐检测范式,参数量比CLAM少49倍,比SpecTTTra少4.8倍。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - ArtifactNet:通过法医残差物理检测AI生成音乐

来源:https://huggingface.co/papers/2604.16254

摘要

ArtifactNet 使用轻量级神经网络框架,通过分析音频信号中的编码器特定伪影来检测AI生成的音乐,通过编码器感知训练和高效架构设计实现了比现有方法更优的性能。

我们提出了 ArtifactNet,一个轻量级框架,通过将问题重新定义为法医物理学(https://huggingface.co/papers?q=forensic%20physics)——提取和分析神经音频编码器必然在生成音频上留下的物理伪影——来检测AI生成的音乐。有界掩码UNet(ArtifactUNet(https://huggingface.co/papers?q=ArtifactUNet),360万参数)从幅度频谱图(https://huggingface.co/papers?q=magnitude%20spectrograms)中提取编码器残差(https://huggingface.co/papers?q=codec%20residuals),然后通过HPSS(https://huggingface.co/papers?q=HPSS)分解为7通道法医特征,供紧凑型CNN(https://huggingface.co/papers?q=compact%20CNN)(40万参数;共400万)分类。我们引入了 ArtifactBench(https://huggingface.co/papers?q=ArtifactBench),一个多生成器评估基准,包含6,183个音轨(来自22个生成器的4,383个AI音乐和来自6个不同来源的1,800个真实音乐)。每个音轨都标记了 bench_origin 以用于公平的零样本评估。在不可见的测试集(n=2,263)上,ArtifactNet 达到 F1 = 0.9829,FPR = 1.49%,相比之下 CLAM(F1 = 0.7576,FPR = 69.26%)和 SpecTTTra(F1 = 0.7713,FPR = 19.43%)在相同条件下使用已发布的检查点进行评估。编码器感知训练(https://huggingface.co/papers?q=Codec-aware%20training)(4路WAV/MP3/AAC/Opus增强)进一步将跨编码器概率漂移(https://huggingface.co/papers?q=cross-codec%20probability%20drift)降低了83%(Delta = 0.95 → 0.16),解决了主要的编码器不变性失败模式。这些结果确立了法医物理学——直接提取编码器级伪影——作为一种比表征学习(https://huggingface.co/papers?q=representation%20learning)更通用且参数高效的AI音乐检测范式,使用的参数比CLAM少49倍,比SpecTTTra少4.8倍。

查看arXiv页面(https://arxiv.org/abs/2604.16254)查看PDF(https://arxiv.org/pdf/2604.16254)项目页面(https://demo.intrect.io/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16254)

引用此论文的模型1

intrect/artifactnet 音频分类• 约5小时前更新(https://huggingface.co/intrect/artifactnet)

引用此论文的数据集1

intrect/artifactbench 查看器• 约6小时前更新 • 4.4k • 59(https://huggingface.co/datasets/intrect/artifactbench)

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2604.16254以从此页面链接它。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接它。

相似文章

AI生成视频:好到不真实

Reddit r/singularity

一段AI生成的音乐视频在布料运动、手指互动和物理效果等细节上展现出前所未有的真实感,让人不禁好奇其使用了什么技术。