ArtifactNet:通过法证残差物理学检测AI生成音乐

Hugging Face Daily Papers 论文

摘要

ArtifactNet是一个轻量级神经网络框架,通过分析音频信号中的编码器特定工件来检测AI生成的音乐,在新的6,183轨道基准测试(ArtifactBench)上达到F1=0.9829,参数量比竞争方法少49倍。该方法采用法证物理学原理,通过有界掩码UNet和紧凑型CNN提取编码器残差,编码器感知训练将跨编码器漂移减少83%。

我们提出了ArtifactNet,一个轻量级框架,通过将问题重新表述为法证物理学来检测AI生成的音乐——提取并分析神经音频编码器必然在生成音频上留下的物理工件。有界掩码UNet(ArtifactUNet,360万参数)从幅度谱图中提取编码器残差,然后通过HPSS分解为7通道法证特征,供紧凑型CNN分类器(40万参数;总计400万参数)使用。我们引入了ArtifactBench,一个多生成器评估基准,包含6,183个音轨(来自22个生成器的4,383个AI音轨和来自6个不同来源的1,800个真实音轨)。每个音轨都标记有bench_origin以进行公平的零样本评估。在未见过的测试集(n=2,263)上,ArtifactNet实现了F1=0.9829,FPR=1.49%,相比之下CLAM(F1=0.7576,FPR=69.26%)和SpecTTTra(F1=0.7713,FPR=19.43%)在相同条件下使用已发布的检查点进行评估。编码器感知训练(4路WAV/MP3/AAC/Opus增强)进一步将跨编码器概率漂移减少83%(Delta=0.95→0.16),解决了主要的编码器不变性失败模式。这些结果确立了法证物理学——直接提取编码器级工件——作为比表示学习更可泛化、更参数高效的AI音乐检测范式,参数量比CLAM少49倍,比SpecTTTra少4.8倍。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - ArtifactNet:通过法医残差物理检测AI生成音乐

来源:https://huggingface.co/papers/2604.16254

摘要

ArtifactNet 使用轻量级神经网络框架,通过分析音频信号中的编码器特定伪影来检测AI生成的音乐,通过编码器感知训练和高效架构设计实现了比现有方法更优的性能。

我们提出了 ArtifactNet,一个轻量级框架,通过将问题重新定义为法医物理学(https://huggingface.co/papers?q=forensic%20physics)——提取和分析神经音频编码器必然在生成音频上留下的物理伪影——来检测AI生成的音乐。有界掩码UNet(ArtifactUNet(https://huggingface.co/papers?q=ArtifactUNet),360万参数)从幅度频谱图(https://huggingface.co/papers?q=magnitude%20spectrograms)中提取编码器残差(https://huggingface.co/papers?q=codec%20residuals),然后通过HPSS(https://huggingface.co/papers?q=HPSS)分解为7通道法医特征,供紧凑型CNN(https://huggingface.co/papers?q=compact%20CNN)(40万参数;共400万)分类。我们引入了 ArtifactBench(https://huggingface.co/papers?q=ArtifactBench),一个多生成器评估基准,包含6,183个音轨(来自22个生成器的4,383个AI音乐和来自6个不同来源的1,800个真实音乐)。每个音轨都标记了 bench_origin 以用于公平的零样本评估。在不可见的测试集(n=2,263)上,ArtifactNet 达到 F1 = 0.9829,FPR = 1.49%,相比之下 CLAM(F1 = 0.7576,FPR = 69.26%)和 SpecTTTra(F1 = 0.7713,FPR = 19.43%)在相同条件下使用已发布的检查点进行评估。编码器感知训练(https://huggingface.co/papers?q=Codec-aware%20training)(4路WAV/MP3/AAC/Opus增强)进一步将跨编码器概率漂移(https://huggingface.co/papers?q=cross-codec%20probability%20drift)降低了83%(Delta = 0.95 → 0.16),解决了主要的编码器不变性失败模式。这些结果确立了法医物理学——直接提取编码器级伪影——作为一种比表征学习(https://huggingface.co/papers?q=representation%20learning)更通用且参数高效的AI音乐检测范式,使用的参数比CLAM少49倍,比SpecTTTra少4.8倍。

查看arXiv页面(https://arxiv.org/abs/2604.16254)查看PDF(https://arxiv.org/pdf/2604.16254)项目页面(https://demo.intrect.io/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16254)

引用此论文的模型1

intrect/artifactnet 音频分类• 约5小时前更新(https://huggingface.co/intrect/artifactnet)

引用此论文的数据集1

intrect/artifactbench 查看器• 约6小时前更新 • 4.4k • 59(https://huggingface.co/datasets/intrect/artifactbench)

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2604.16254以从此页面链接它。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接它。

相似文章

MuseNet

OpenAI Blog

OpenAI 发布了 MuseNet,一个基于 GPT-2 架构的深度神经网络,通过从数十万个 MIDI 文件中学习模式,能够生成 4 分钟的音乐作品,包含 10 种乐器。该模型可以结合多种音乐风格并以新颖的方式融合它们。

理解我们在线看到和听到的内容来源

OpenAI Blog

OpenAI宣布推出工具和研究成果,帮助验证内容真实性,包括文本水印、元数据方法和扩展的图像检测,以及与C2PA元数据集成,用于追踪AI生成和编辑的内容。