ArtifactNet：通过法证残差物理学检测AI生成音乐

Hugging Face Daily Papers 2026/04/17 00:00 论文

摘要

ArtifactNet是一个轻量级神经网络框架，通过分析音频信号中的编码器特定工件来检测AI生成的音乐，在新的6,183轨道基准测试（ArtifactBench）上达到F1=0.9829，参数量比竞争方法少49倍。该方法采用法证物理学原理，通过有界掩码UNet和紧凑型CNN提取编码器残差，编码器感知训练将跨编码器漂移减少83%。

我们提出了ArtifactNet，一个轻量级框架，通过将问题重新表述为法证物理学来检测AI生成的音乐——提取并分析神经音频编码器必然在生成音频上留下的物理工件。有界掩码UNet（ArtifactUNet，360万参数）从幅度谱图中提取编码器残差，然后通过HPSS分解为7通道法证特征，供紧凑型CNN分类器（40万参数；总计400万参数）使用。我们引入了ArtifactBench，一个多生成器评估基准，包含6,183个音轨（来自22个生成器的4,383个AI音轨和来自6个不同来源的1,800个真实音轨）。每个音轨都标记有bench_origin以进行公平的零样本评估。在未见过的测试集（n=2,263）上，ArtifactNet实现了F1=0.9829，FPR=1.49%，相比之下CLAM（F1=0.7576，FPR=69.26%）和SpecTTTra（F1=0.7713，FPR=19.43%）在相同条件下使用已发布的检查点进行评估。编码器感知训练（4路WAV/MP3/AAC/Opus增强）进一步将跨编码器概率漂移减少83%（Delta=0.95→0.16），解决了主要的编码器不变性失败模式。这些结果确立了法证物理学——直接提取编码器级工件——作为比表示学习更可泛化、更参数高效的AI音乐检测范式，参数量比CLAM少49倍，比SpecTTTra少4.8倍。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - ArtifactNet：通过法医残差物理检测AI生成音乐

来源：https://huggingface.co/papers/2604.16254

摘要

ArtifactNet 使用轻量级神经网络框架，通过分析音频信号中的编码器特定伪影来检测AI生成的音乐，通过编码器感知训练和高效架构设计实现了比现有方法更优的性能。

我们提出了 ArtifactNet，一个轻量级框架，通过将问题重新定义为法医物理学(https://huggingface.co/papers?q=forensic%20physics)——提取和分析神经音频编码器必然在生成音频上留下的物理伪影——来检测AI生成的音乐。有界掩码UNet（ArtifactUNet(https://huggingface.co/papers?q=ArtifactUNet)，360万参数）从幅度频谱图(https://huggingface.co/papers?q=magnitude%20spectrograms)中提取编码器残差(https://huggingface.co/papers?q=codec%20residuals)，然后通过HPSS(https://huggingface.co/papers?q=HPSS)分解为7通道法医特征，供紧凑型CNN(https://huggingface.co/papers?q=compact%20CNN)（40万参数；共400万）分类。我们引入了 ArtifactBench(https://huggingface.co/papers?q=ArtifactBench)，一个多生成器评估基准，包含6,183个音轨（来自22个生成器的4,383个AI音乐和来自6个不同来源的1,800个真实音乐）。每个音轨都标记了 bench_origin 以用于公平的零样本评估。在不可见的测试集（n=2,263）上，ArtifactNet 达到 F1 = 0.9829，FPR = 1.49%，相比之下 CLAM（F1 = 0.7576，FPR = 69.26%）和 SpecTTTra（F1 = 0.7713，FPR = 19.43%）在相同条件下使用已发布的检查点进行评估。编码器感知训练(https://huggingface.co/papers?q=Codec-aware%20training)（4路WAV/MP3/AAC/Opus增强）进一步将跨编码器概率漂移(https://huggingface.co/papers?q=cross-codec%20probability%20drift)降低了83%（Delta = 0.95 → 0.16），解决了主要的编码器不变性失败模式。这些结果确立了法医物理学——直接提取编码器级伪影——作为一种比表征学习(https://huggingface.co/papers?q=representation%20learning)更通用且参数高效的AI音乐检测范式，使用的参数比CLAM少49倍，比SpecTTTra少4.8倍。

查看arXiv页面(https://arxiv.org/abs/2604.16254)查看PDF(https://arxiv.org/pdf/2604.16254)项目页面(https://demo.intrect.io/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16254)

引用此论文的模型1

intrect/artifactnet 音频分类• 约5小时前更新(https://huggingface.co/intrect/artifactnet)

引用此论文的数据集1

intrect/artifactbench 查看器• 约6小时前更新 • 4.4k • 59(https://huggingface.co/datasets/intrect/artifactbench)

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2604.16254以从此页面链接它。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接它。

ArtifactNet：通过法证残差物理学检测AI生成音乐

论文页面 - ArtifactNet：通过法医残差物理检测AI生成音乐

摘要

引用此论文的模型1

intrect/artifactnet 音频分类• 约5小时前更新(https://huggingface.co/intrect/artifactnet)

引用此论文的数据集1

intrect/artifactbench 查看器• 约6小时前更新 • 4.4k • 59(https://huggingface.co/datasets/intrect/artifactbench)

引用此论文的Spaces0

包含此论文的收藏0

相似文章

APEX：面向 AI 生成音乐的规模化多任务美学感知流行度预测

最佳本地AI音乐生成器来了！免费无限制

MuseNet

理解我们在线看到和听到的内容来源

Deezer 称 44% 的新上传音乐为 AI 生成，其中大部分流量造假

提交意见反馈