SpurAudio:用于研究少样本音频分类中捷径学习的基准测试
摘要
SpurAudio 是一个新的基准测试,旨在评估少样本音频分类中的捷径学习与虚假相关性问题。研究表明,当背景相关性被打破时,包括大型预训练音频基础模型在内的最先进方法均出现显著的性能下降。
arXiv:2605.13672v1 公告类型:跨领域
摘要:少样本分类(FSC)被广泛用于从有限标注数据中学习,然而大多数评估方案隐含地假设目标概念与上下文线索相互独立。然而在实际场景中,样本往往出现在丰富的上下文环境中,使得模型能够利用前景内容与背景信号之间的虚假相关性。尽管这类效应已在少样本图像分类中得到研究,但其在少样本音频分类中的作用仍基本未被探索,且现有音频基准测试对上下文结构的控制能力十分有限。我们提出了 SpurAudio——一个充分利用音频中前景事件与背景环境天然可分性的基准测试,能够对支持集与查询集之间的上下文偏移进行受控的多层次评估。基于该基准测试,我们发现许多最先进的少样本方法在背景相关性被打破时会出现严重的性能下降,尽管它们在标准评估协议下取得了相近的准确率。关键在于,这一脆弱性在大型预训练音频基础模型中同样存在,排除了骨干网络容量不足作为解释的可能。此外,在传统基准测试下表现相当的方法,对虚假相关性的敏感程度可能存在显著差异,揭示了与特征表示在推理时如何与分类头交互相关的系统性算法优势与缺陷。这些发现为理解少样本方法在音频领域的行为提供了新的视角,并强调了在评估 FSC 模型时,需要能够显式探测上下文依赖性的基准测试。
查看缓存全文
缓存时间: 2026/06/05 02:10
# SpurAudio:研究少样本音频分类中捷径学习的基准数据集
来源:https://arxiv.org/html/2605.13672
Giries Abu Ayoub
计算机科学系
海法大学
jerryabuayob@gmail\.com
&Morad Tukan11脚注标记:1
独立研究员
muradtuk@gmail\.com
Loay Mualem
斯图加特大学,德国
IMPRS\-IS,德国
loaymua@gmail\.com
同等贡献 通讯作者 国际马克斯·普朗克智能系统研究院。
###### 摘要
少样本分类(FSC)被广泛用于从有限标注数据中学习,但大多数评估方案都隐式地假设目标概念与上下文线索相互独立。然而在现实场景中,样本通常出现在丰富的上下文环境中,使得模型可以利用前景内容与背景信号之间的虚假相关性。尽管此类效应已在少样本图像分类领域得到研究,但其在少样本音频分类中的作用仍鲜有探索,且现有音频基准数据集对上下文结构的控制十分有限。我们提出了 SpurAudio——一个利用音频中前景事件与背景环境天然可分离性的基准数据集,能够在支持集和查询集之间实现可控的多级上下文偏移评估。借助该基准,我们发现许多最先进的少样本方法在背景相关性被破坏时会出现严重的性能下降,尽管在标准评估协议下它们能取得相近的准确率。值得注意的是,即便在大型预训练音频基础模型中,这种脆弱性依然存在,排除了骨干网络容量不足的解释。此外,在传统基准下表现相当的方法,对虚假相关性的敏感程度可能存在显著差异,揭示了与特征表示在推理时如何与分类头交互相关的系统性算法优势与缺陷。这些发现为深入理解少样本方法在音频领域的行为提供了新视角,并强调了在评估 FSC 模型时需要能够显式探测上下文依赖性的基准数据集。https://github.com/Jerryaa98/SpurAudio
## 1 引言
少样本分类(*FSC*)旨在仅从少量标注样本中识别新类别Vinyals等人\(2016 (https://arxiv.org/html/2605.13672#bib.bib21)\);Snell等人\(2017 (https://arxiv.org/html/2605.13672#bib.bib32)\);Finn等人\(2017a (https://arxiv.org/html/2605.13672#bib.bib20)\);Wang等人\(2020 (https://arxiv.org/html/2605.13672#bib.bib8)\)。尽管表示学习的最新进展已大幅提升了数据效率,但 *FSC* 在现实*音频*应用中仍面临严峻挑战。声音事件往往稀少、标注成本高昂,且在声学表现上高度多变,使得大规模监督训练难以实现。因此,少样本音频分类对许多高影响力领域至关重要,包括生物声学监测Ghani等人\(2024 (https://arxiv.org/html/2605.13672#bib.bib3)\);Nolasco等人\(2023 (https://arxiv.org/html/2605.13672#bib.bib47)\);You等人\(2023 (https://arxiv.org/html/2605.13672#bib.bib45)\);Moummadet等人\(2023 (https://arxiv.org/html/2605.13672#bib.bib42)\);Liu等人\(2024a (https://arxiv.org/html/2605.13672#bib.bib43)\);Ijaz等人\(2024 (https://arxiv.org/html/2605.13672#bib.bib44)\);McEwen等人\(2024 (https://arxiv.org/html/2605.13672#bib.bib46)\);Jana等人\(2025 (https://arxiv.org/html/2605.13672#bib.bib48)\),工业故障诊断Siraj等人\(2023 (https://arxiv.org/html/2605.13672#bib.bib52)\);Liang等人\(2023 (https://arxiv.org/html/2605.13672#bib.bib50)\);Saleem等人\(2025 (https://arxiv.org/html/2605.13672#bib.bib49)\);Zabin等人\(2025 (https://arxiv.org/html/2605.13672#bib.bib51)\),以及医疗音频分析Disha Sendhil Kumar等人\(2025 (https://arxiv.org/html/2605.13672#bib.bib53)\);Florea等人\(2025 (https://arxiv.org/html/2605.13672#bib.bib54)\)——在这些场景中,失败可能带来重大的生态、经济或安全后果。
然而,音频领域的一个核心挑战在于其*叠加性*。与图像中物体通常可以从背景中空间分离不同,音频前景事件在时频域中与背景声音叠加在一起Wichern等人\(2019 (https://arxiv.org/html/2605.13672#bib.bib17)\);Maciejewski等人\(2020 (https://arxiv.org/html/2605.13672#bib.bib18)\)。在实际中,目标声音很少孤立出现,而是嵌入在丰富且往往具有预测性的声学上下文中。这使得少样本音频模型容易利用类别标签与背景线索之间的*虚假相关性*:模型可能因为依赖上下文而非语义前景内容,以*错误的方式*获得较高的准确率。这类非因果捷径在训练和测试条件匹配时会人为地抬高性能,但一旦背景上下文发生变化,则会导致骤然失败。
已有研究表明,音频表示对背景干扰、退化和多声道混叠十分敏感Salamon and Bello \(2017 (https://arxiv.org/html/2605.13672#bib.bib56)\);Turpault等人\(2021 (https://arxiv.org/html/2605.13672#bib.bib57)\);Abeßer等人\(2023 (https://arxiv.org/html/2605.13672#bib.bib55)\)。近期,*RobustCLAP*Selvakumar等人\(2025 (https://arxiv.org/html/2605.13672#bib.bib59)\)等面向鲁棒性的方法致力于在*表示学习*层面提升对噪声、损坏或背景变化的不变性。然而,这些研究主要在监督或零样本设置下进行,并未考察*情节式少样本泛化*场景——即模型需要从极少量标注样本中快速适应。因此,当前少样本音频方法在多大程度上依赖上下文捷径,以及其性能在受控背景偏移下的脆弱程度,目前尚不明确。
参见图注图1:SpurAudio 情节式结构示意图。(a) 1-shot 2-way 情节:两个前景类别(咳嗽声和猪叫声)分别与不同背景(如真空吸尘器、雷暴、教堂钟声、警报声)混合,并由 φ\\phi 映射到特征空间。来自同一前景类别的样本指向相同方向,而背景噪声改变了混合样本向量(深色)相对于纯净样本(浅色)的长度。(b) 一个 OOD 情节:支持集(s)和查询集(q)包含不重叠的背景(如教堂钟声 vs. 警报声)。尽管前景类别相同,查询样本在度量空间中偏离了正确的支持集聚类,导致分类错误。
在典型的 *FSC* 情节中,模型需要从少量标注的*支持集*泛化到无标注的*查询集*Vinyals等人\(2016 (https://arxiv.org/html/2605.13672#bib.bib21)\);Snell等人\(2017 (https://arxiv.org/html/2605.13672#bib.bib32)\)。尽管现代方法在受控评估协议下能取得较强的性能,但在现实的分布外(*OOD*)条件下往往会出现显著退化。参照视觉领域的已有工作Zhang and et al. \(2024 (https://arxiv.org/html/2605.13672#bib.bib9)\);Sagawa and Koh (https://arxiv.org/html/2605.13672#bib.bib10),FSC 中的 OOD 失败可来自两个来源:(i) 跨领域 *FSC*,即源域和目标域不同(如语音→\\rightarrow音乐);(ii) 虚假相关性 *FSC*(*SC\-FSC*),即语义类别保持不变但上下文线索发生变化。本文聚焦于 *SC\-FSC*——这在音频领域是一种尤为隐蔽的失败模式。由于前景与背景信号不可分离地混合在一起,训练期间一致的共现模式会促使模型依赖上下文捷径,而非语义前景内容。这一现象与*捷径学习*Geirhos等人\(2020 (https://arxiv.org/html/2605.13672#bib.bib61)\)以及"聪明汉斯"效应Liu等人\(2024b (https://arxiv.org/html/2605.13672#bib.bib58)\)密切相关。当此类相关性在测试时被打破——例如,机器故障发生在不同的工厂环境中——性能可能灾难性地下降,危及实际部署。
### 1\.1 现有工作的定位与不足
现有音频鲁棒性研究主要针对数据集、录音条件或声学场景之间的领域偏移Heggan等人\(2022 (https://arxiv.org/html/2605.13672#bib.bib11)\)。即便是 *FSD50K*Fonseca等人\(2021 (https://arxiv.org/html/2605.13672#bib.bib60)\)等大规模数据集,通常也用于监督或零样本训练,而不对前景–背景相关性进行控制或解耦。面向鲁棒性的方法(如 *RobustCLAP*Selvakumar等人\(2025 (https://arxiv.org/html/2605.13672#bib.bib59)\))虽然致力于在表示层面提升对噪声或损坏的不变性,但并不在受控背景操作下评估*情节式少样本泛化*。因此,现有基准主要评估匹配条件或宽泛的领域偏移Heggan等人\(2022 (https://arxiv.org/html/2605.13672#bib.bib11)\),往往将语义前景内容与背景上下文混为一谈。它们无法隔离非因果背景相关性对情节式泛化的影响,且可能通过奖励对上下文捷径的依赖而高估鲁棒性。因此,虚假上下文线索对少样本音频学习的影响在很大程度上仍未得到刻画,在理解少样本音频泛化方面留下了一个关键盲点。
### 1\.2 本文工作
为弥补这一不足,我们提出了 SpurAudio——一个系统性设计用于隔离和评估少样本音频分类中虚假相关性的基准数据集;参见图1 (https://arxiv.org/html/2605.13672#S1.F1)了解 SpurAudio 的示意图。我们的数据通过将五个真实世界数据集中的前景事件与语义无关的背景纹理混合获得。这种受控混合在支持集中诱导出强相关性(如类别 A 与背景 X),同时在查询集中变化背景条件(如类别 A 与背景 Y),从而能够清晰地解耦因果前景学习与捷径依赖。至关重要的是,SpurAudio 作为一个诊断性*数据集*,用于分析不同 FSC 方法家族的失败模式。
除提供受控基准外,SpurAudio 还支持在上下文偏移下对少样本音频方法进行深入分析。借助该基准,我们发现许多最先进的 *FSC* 方法在背景相关性被破坏时性能严重退化,尽管在标准评估协议下它们能取得相近的准确率。此外,在传统基准下表现相当的方法,由于少样本性能受特征表示与分类头对齐程度的影响,对虚假相关性的敏感度可能存在显著差异。重要的是,这种脆弱性并不局限于小型骨干网络:它在大型预训练音频基础模型中同样存在,表明虚假背景依赖是少样本音频推理的基本属性,而非表示容量的局限。这些观察揭示了当前 *FSC* 算法的系统性优势与弱点,并凸显了在评估少样本音频模型时显式探测上下文依赖性的基准的重要性。更重要的是,我们的工作揭示了一些微妙的规律,不仅为少样本学习领域开辟了新的研究方向,也对广泛的音频任务具有深远的启示意义。
因此,我们的贡献体现在以下三个方面:
- •我们提出了 SpurAudio,一个支持在多个音频领域中操控前景–背景相关性的受控基准数据集。
- •我们刻画了少样本音频分类中的虚假相关性 *OOD* 失败现象,表明背景上下文发生偏移时最先进方法会出现崩溃。
- •我们对基于度量、元学习、对比学习、直推式和微调等方法进行了广泛的基准测试,涵盖标准骨干网络和大型预训练音频基础模型,揭示了系统性的上下文依赖现象,并为未来面向上下文鲁棒的少样本音频学习研究提供了动力。
## 2 SpurAudio 数据集
本节介绍 SpurAudio——一个专门为研究少样本音频分类中虚假相关性影响而设计的数据集。SpurAudio 通过整合来自五个公开数据集的音频样本构建而成,涵盖多样化的声学领域:\(i\) ESC\-50Piczak \(2015 (https://arxiv.org/html/2605.13672#bib.bib12)\):包含 50 个环境声音类别的基准数据集,涵盖动物叫声、自然现象和人类活动。\(ii\) UrbanSound8KSalamon等人\(2014 (https://arxiv.org/html/2605.13672#bib.bib13)\):包含 8,732 个城市音频片段,涵盖警报、狗吠、钻孔等 10 个类别。\(iii\) VocalSoundGong等人\(2022 (https://arxiv.org/html/2605.13672#bib.bib14)\):人类发声模仿与音效数据集。\(iv\) WILD DESEDXiao and Das \(2024 (https://arxiv.org/html/2605.13672#bib.bib15)\):在多种室外声学环境中采集的弱标注录音。\(v\) USMAbeßer \(2022 (https://arxiv.org/html/2605.13672#bib.bib16)\):嵌入复杂声学场景中的声音事件大规模数据集。
### 2\.1 声音事件生成
为合成在"野外"自然发生的逼真声音事件,我们定义了两个互补的概念来划分音频集合:\(I\) 前景(FG):在少样本学习情节中需要识别的目标事件类别;\(II\) 背景(BG):从语义无关类别中采样的音频片段,作为干扰上下文引入。前景类别与背景类别的配对在语义上相互独立;例如,"狗吠"前景与"公园噪声"背景组合,同时仍反映现实声学环境中可能同时出现的组合。为确保多样性并避免过度重复,我们进一步限制同一背景类别在多个前景类别中的重复使用。
**数据生成流程。** 给定一对声音片段——前景 $x_{\mathrm{fg}}(t)$ 和背景 $x_{\mathrm{bg}}(t)$,我们的目标是确保生成的混合结果代表人类能够感知为合理现实共现的场景。为此,两名标注员进行了三阶段的数据筛选过程:\(i\) 在保持最大连通性的前提下,将完整音频片段集合划分为前景集和背景集;\(ii\) 将每个前景类别与四个不同的背景类别关联;\(iii\) 对生成的组合声音事件进行人工筛选。
**混合过程。** 为生成与自然发生声音事件相似的混合音频,我们采用了 Wichern等人\(2019 (https://arxiv.org/html/2605.13672#bib.bib17)\);Maciejewski等人\(2020 (https://arxiv.org/html/2605.13672#bib.bib18)\)提出的混合流程。给定 $x_{\mathrm{fg}}(t)$ 和 $x_{\mathrm{bg}}(t)$,两个信号首先被重采样至 $16$ kHz,并裁剪或填充至固定时长 $T=5$ 秒,得到 $\hat{x}_{\mathrm{fg}}(t)$ 和 $\hat{x}_{\mathrm{bg}}(t)$。随后,我们使用 EBU R128(LUFS)标准计算每个信号的综合响度,并在混合前将背景缩放至比前景低固定感知余量 $8$ dB 的水平。最终混合结果进行峰值归一相似文章
MSAVBench:迈向多镜头音视频生成的全面可靠评估
MSAVBench是首个面向多镜头音视频生成的综合基准与自适应评估框架,评估了19个模型在多样化任务上的表现,并与人类判断实现了高度对齐。
ChildVox:理解与表征儿童声音的语音、音频及大型音频语言模型基准
ChildVox 提出了一个全面的基准,用于分析儿童在不同发育阶段的声学交流,整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务。
商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语
本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。
利用记忆引导的数据集去偏方法缓解虚假相关性
本文提出一种通过两阶段样本评分函数分离核心特征与虚假特征学习动态的方法,仅需10%的训练数据即可实现最先进的去偏性能。
AudioMosaic:对比掩码音频表示学习
AudioMosaic 提出了一种基于对比学习的音频编码器,通过对频谱图块应用结构化时频掩码来构建正样本对,实现高效的大批量训练,在音频基准测试中达到最先进性能,并提升了音频-语言模型的效果。