MultiLinguahah:一种新的无监督多语言声学笑声分割方法
摘要
本文介绍了 MultiLinguahah,这是一种基于 BYOL-A 编码器表示并使用隔离森林(Isolation Forests)进行无监督多语言声学笑声分割的方法。作者证明,通过将笑声检测视为异常检测任务,该方法在非英语环境下的表现优于最先进(SOTA)的监督方法。
arXiv:2605.06309v1 公告类型:新论文
摘要:笑声是一种跨文化和语言普遍存在的社会性非语音发声,对于人类交流(包括社会联系和沟通信号)至关重要。然而,在音频中检测笑声是一项具有挑战性的任务,而进行分割则更加困难。目前,机器学习方法通常依赖于昂贵的人工标注,且其数据集主要基于英语语境。因此,我们提出了一种无监督的多语言方法,将笑声分割任务设定为基于能量的分段音频序列的异常检测。我们的方法在从 BYOL-A 编码器学习到的音频表示上应用隔离森林。我们在四个数据集(包括脱口秀、情景喜剧以及来自 AudioSet 的一般短音频)上将该方法与几种最先进的笑声检测算法进行了比较。结果表明,现有最先进的方法并未针对多语言语境进行优化,而我们的方法在非英语设置下表现优于它们。
查看缓存全文
缓存时间: 2026/05/08 07:41
# MultiLinguahah:一种新的无监督多语言笑声声学分割方法
来源:https://arxiv.org/html/2605.06309
Callejas Gomez Pelachaud Ravenet Barriere
###### 摘要
笑声是一种跨越文化和语言的普遍社会非言语发声,对于人类交流(包括社交联结和沟通信号)至关重要。然而,在音频中检测笑声是一项具有挑战性的任务,而对其进行分割则更加困难。目前,机器学习方法通常依赖于昂贵的标注数据,且其数据集主要基于英语语境。因此,我们提出了一种无监督的多语言方法,将笑声分割任务设定为基于能量的分割音频序列的异常检测。我们的方法对从 BYOL-A 编码器学习到的音频表示应用隔离森林(Isolation Forest)。我们在四个数据集上将该方法与几种最先进的笑声检测算法进行了比较,包括脱口秀、情景喜剧以及来自 AudioSet 的通用短音频。我们的结果表明,最先进的方法并未针对多语言语境进行优化,而我们的方法在非英语环境下表现优于它们。
###### 关键词:
笑声,音频分割,计算副语言学
## 1. 引言
笑声在人类互动中无处不在,在人与人之间的沟通中扮演着重要角色,同时也作为社交联结的工具[1 (https://arxiv.org/html/2605.06309#bib.bib1)][2 (https://arxiv.org/html/2605.06309#bib.bib2)]。它具有内在的社会性,因为它不仅传达了个人的内部状态,还有助于将这种状态传播给其他听众[3 (https://arxiv.org/html/2605.06309#bib.bib3)]。它可以表达喜悦、解脱或成功,但也可能出现在尴尬、愤怒甚至悲伤的时刻[4 (https://arxiv.org/html/2605.06309#bib.bib4)]。
笑声一直是心理学[5 (https://arxiv.org/html/2605.06309#bib.bib5)]、语言学[6 (https://arxiv.org/html/2605.06309#bib.bib6)]或计算机科学[7 (https://arxiv.org/html/2605.06309#bib.bib7),8 (https://arxiv.org/html/2605.06309#bib.bib8)]等领域研究的对象。笑声对于理解人类沟通以及构建社交互动智能体(Socially Interactive Agents, SIAs; [9 (https://arxiv.org/html/2605.06309#bib.bib9)])至关重要的各种任务非常有用:从情绪识别到幽默提取[10 (https://arxiv.org/html/2605.06309#bib.bib10),8 (https://arxiv.org/html/2605.06309#bib.bib8)],最终到自然语音生成[11 (https://arxiv.org/html/2605.06309#bib.bib11)]。这使得其自动检测变得重要。
研究笑声的一个角度是其声学结构。最近的研究表明,这种结构是普遍的,意味着笑声在不同语言中表现出相似的声学模式[12 (https://arxiv.org/html/2605.06309#bib.bib12)],这促使需要能够检测它的通用语言且与领域无关的系统。
深度学习(DL)算法是自动笑声检测和笑声分割的稳健方法,其目标是在音频文件中检测笑声的开始和结束。但解决这一任务最高效的算法是基于 DL 的[13 (https://arxiv.org/html/2605.06309#bib.bib13),14 (https://arxiv.org/html/2605.06309#bib.bib14),15 (https://arxiv.org/html/2605.06309#bib.bib15)],并且通常需要大量的人工标注。获取精确的时间戳是一项细致且非常耗时的任务,使得无监督建模在这种情况下非常有用。
近期的工作在未依赖人工标注时,提出使用自动方法标注笑声,例如使用转录文本[10 (https://arxiv.org/html/2605.06309#bib.bib10)],或在非笑声片段中人工添加笑声[13 (https://arxiv.org/html/2605.06309#bib.bib13)]。前者不能给出确切位置,而后者允许直接在笑声上应用数据增强技术,并精确知道新音频中确切笑声的开始和结束位置。然而,自然发生的例子比人工创建的数据更多样化,因为后者可能会偏离原始数据分布[16 (https://arxiv.org/html/2605.06309#bib.bib16),17 (https://arxiv.org/html/2605.06309#bib.bib17),18 (https://arxiv.org/html/2605.06309#bib.bib18)]。例如,像 FunnyNet[19 (https://arxiv.org/html/2605.06309#bib.bib19)]这样的无监督方法是在诸如《老友记》(Friends,一部情景喜剧)的数据集上进行评估的,其中语音占主导地位,背景噪音有限,声音混音经过专业控制。然而,这种设置并未反映从不同国家和声学环境中收集的真实世界多语言数据。在这样的数据中,背景音乐、环境噪音和录制条件变化很大。野外脱口秀提供了包含声学笑声分割系统可能面临的挑战的多样化数据类型[20 (https://arxiv.org/html/2605.06309#bib.bib20)]:多样化的音频采集条件,以及笑声类型和语言。我们手动标注了多种语言的测试数据以验证我们的结果。
在本文中,我们提出了一种无监督的声学笑声分割模型,该模型在不同的领域和语言中表现良好。我们表明,最先进的方法虽然在美式英语上通常更好,但在不同语言域和领域中的表现并不一致。总体而言,本文的主要贡献可以总结如下:(i) 一种基于能量分割和隔离森林的新无监督笑声分割方法;(ii) 通过公开可用的标注数据集和新笑声标注,应用于跨语言和领域;(iii) 针对笑声持续时间进行分析。我们的代码在线可用:https://tinyurl.com/Multilinguahah-Interspeech26。
## 2. MultiLinguahah:声学笑声分割
参见图注音频输入参见图注§2.1 (https://arxiv.org/html/2605.06309#S2.SS1) 语音去除参见图注§2.2 (https://arxiv.org/html/2605.06309#S2.SS2) 能量阈值§2.3 (https://arxiv.org/html/2605.06309#S2.SS3) 编码器 $\mathcal{E}$ §2.4 (https://arxiv.org/html/2605.06309#S2.SS4) 隔离森林 $\mathcal{A}$ 参见图注(异常检测)图 1:我们首先通过信道减法或音频源分离去除笑声中的语音(§2.1 (https://arxiv.org/html/2605.06309#S2.SS1)),然后使用基于能量的阈值将音频分割成事件(§2.2 (https://arxiv.org/html/2605.06309#S2.SS2)),接着使用预训练模型对音频进行编码(§2.3 (https://arxiv.org/html/2605.06309#S2.SS3)),最后使用基于隔离森林的异常检测算法检测笑声(§2.4 (https://arxiv.org/html/2605.06309#S2.SS4))。所提出的方法由几个步骤组成。概述如图 1 (https://arxiv.org/html/2605.06309#S2.F1) 所示。
### 2.1 语音去除
我们方法的第一步是从音频信号中去除语音,以保留背景,包括笑声、音乐和环境声音。
为了将人声与音频的其余部分隔离,我们应用现成的音频源分离模型 $\mathcal{S}$ 到原始音频。该模型允许将语音信号与非语音声学干扰分离。特别是,我们使用了一个基于密集连接卷积神经网络架构的基本深度学习模型[21 (https://arxiv.org/html/2605.06309#bib.bib21)],专为语音信号分离设计[22 (https://arxiv.org/html/2605.06309#bib.bib22)]。
在拥有录音室录制音频的电视节目中,笑声来自观众而非互动参与者本身。可以通过减去两个音频通道来仅关注非语音音频。这项技术在 Friend 数据集上使用,遵循[19 (https://arxiv.org/html/2605.06309#bib.bib19)]的协议。
### 2.2 基于能量的音频分割
一旦将语音与其他声源分离,音频现在由几个非语音事件组成,可能是音乐、环境声音或笑声。我们使用基于能量的峰值检测器[^1]来查找每个事件的开始和结束时间。使用波形能量作为阈值,移除这些事件,仅保留非语音音频。阈值是任意选择的,以便轻微的 background noise 不包含在非静音段中。使用较低的阈值允许包含更多嘈杂的事件,例如,如果检测非常微弱的笑声很有趣。
[^1]: https://github.com/amsehili/auditok
### 2.3 音频编码
提取非语音音频事件后,使用预训练编码器 $\mathcal{E}$ 将这些事件转换为向量。为此,我们依赖于 BYOL-A[23 (https://arxiv.org/html/2605.06309#bib.bib23)],这是一种用于音频的自监督学习方法,无需标记数据即可学习通用表示,并已证明对非语义语音任务有用[24 (https://arxiv.org/html/2605.06309#bib.bib24)]。该模型使用从 AudioSet[25 (https://arxiv.org/html/2605.06309#bib.bib25)]的平衡和不平衡训练分割中进行自监督预训练获得的权重进行初始化,包含 1,963,807 个音频片段(约 5,455 小时),以及数据集 FSD50K[26 (https://arxiv.org/html/2605.06309#bib.bib26)],其中包含 40,966 个音频(80 小时)。
此外,为了执行领域适应,我们将目标数据集的未标记训练分割纳入自监督预训练阶段。
### 2.4 异常检测
最后,为了将笑声事件的向量与其他向量分开,我们利用用于异常检测的无监督算法 $\mathcal{A}$。隔离森林[27 (https://arxiv.org/html/2605.06309#bib.bib27)]模型被用于通过递归使用随机特征分割分区数据来隔离异常值。笑声在不同语言中显示出一致的声学特征,而背景音乐和其他噪音则不同,并被模型视为异常。
## 3. 实验与结果
### 3.1 评估数据集
我们在精选的 4 个包含来自不同领域(野外、录音室录制和人工创建)笑声的数据集上验证和比较模型。
StandUp4AI[28 (https://arxiv.org/html/2605.06309#bib.bib28)]数据集由 3,617 个脱口秀视频组成,涵盖 7 种语言。它包括观众笑声标注,捕捉了来自不同语言和文化背景的喜剧演员的表演。为了构建数据集,作者从在线平台收集了一组有针对性的脱口秀视频。我们在这个数据集中添加了美式英语、加拿大法语和拉丁美洲西班牙语的新标注。我们使用了数据集的测试部分,由 100 个视频组成,包含 8.53 小时的音频和 3,453 个笑声事件。
AudioSet[29 (https://arxiv.org/html/2605.06309#bib.bib29)]是一个大规模的音频片段数据集,每个片段长约 10 秒,源自 YouTube 视频,并标记有超过 500 个音频事件类别。该数据集具有多样化的声学环境和录制质量,覆盖广泛的声音类型,总计 5.8 千小时。笑声已被添加到音频序列中,使得时间戳已知但数据是人工的。使用了数据集的测试部分,包含 724 个可用视频和总共 1,252 个标注的笑声实例。
Friends[30 (https://arxiv.org/html/2605.06309#bib.bib30)]数据集来自同名情景喜剧,包含其第三季的所有 25 集,每集约 23 分钟,总计约 10 小时的视听内容。测试集由最后 5 集(第 21-25 集)组成。在这个测试分区中,笑声事件已被手动标注,识别出总共 924 个不同的笑声实例。
Kuznetsova[31 (https://arxiv.org/html/2605.06309#bib.bib31)]是一个双语数据集,包含英语和俄语的脱口秀视频。俄语子集包括来自 8 个 YouTube 频道的 46 个视频(17 小时),主要来自一家位于符拉迪沃斯托克的俱乐部。英语子集包括来自最大脱口秀 YouTube 频道的 56 个视频(20 小时)。在我们的实验中,我们专注于由原始作者手动标注的官方测试集。该测试分区总共包含 10 个视频,5 个俄语(RU)和 5 个英语(US EN)。这个评估集的组合持续时间为 1.18 小时,包含总共 617 个标注的笑声实例。
### 3.2 评估模型
我们将我们的方法与三个基线模型进行比较:
Gillick 等人[14 (https://arxiv.org/html/2605.06309#bib.bib14)]的模型是一个基于 ResNet 的模型,以监督方式学习,在音频级别使用经典数据增强音频技术(音高移位、时间拉伸和人工混响)。数据增强使模型能够利用 SwitchBoard 标注数据并泛化到野外笑声检测。我们遵循作者的协议使用该模型进行笑声分割(帧级别检测)。
Omine 等人[13 (https://arxiv.org/html/2605.06309#bib.bib13)]的模型是对 wav2vec 2.0 的微调,通过在大量数据上进行监督训练,在来自各种录制环境的各种声音质量的音频数据中随机合成数据增强的笑声。使用数据增强技术,将笑声样本插入非笑声音频中以创建逼真的训练示例。非笑声音频取自 Spotify Podcast Dataset[32 (https://arxiv.org/html/2605.06309#bib.bib32)]和 AudioSet[29 (https://arxiv.org/html/2605.06309#bib.bib29)],笑声样本取自 VocalSound[33 (https://arxiv.org/html/2605.06309#bib.bib33)]和 Laughterscape[11 (https://arxiv.org/html/2605.06309#bib.bib11)]。
Liu 等人[19 (https://arxiv.org/html/2605.06309#bib.bib19)]的模型是一种无监督基线方法[19 (https://arxiv.org/html/2605.06309#bib.bib19)]。该基线应用类似的方法论:它减去信道以去除语音,并使用基于能量的峰值检测器检测事件。然而,它没有使用异常检测,而是应用 K-means 聚类算法对潜在表示进行分组。对于笑声检测,除最小聚类外保留所有聚类,假设它们对应于非笑声片段。关于协议,我们在处理野外音频时使用了与我们方法中应用的相同的源分离器。
最后,我们还将它们与我们的模型和 Omine 模型的混合进行比较,表明它们可以相互补充。
表 1:不同语言、方言和领域中的模型结果。
### 3.3 评估指标
对于每个模型,我们使用交并比(Intersection over Union, IoU)指标评估笑声区间的分割,设定两个阈值:0.3 以了解模型检测笑声区间的程度,0.7 以评估时间分割。基于这些阈值,我们计算召回率(Recall)和 F1 分数。召回率衡量模型正确检测的地面真值笑声片段的比例。F1 分数是精确率(Precision)和召回率的调和平均数。
### 3.4 实验设置
实验在 PyTorch 和 scikit-learn[34 (https://arxiv.org/html/2605.06309#bib.bib34)]中实现,所有计算均在 NVIDIA GeForce RTX相似文章
基于跨语言迁移学习的多语言语音阿尔茨海默病检测方法
本文提出了一种跨语言迁移学习方法,用于从语音中检测阿尔茨海默病,覆盖多种语言,实现了82%的F1分数,并支持实时筛查应用。
一次越狱,多种语言:学习语言不敏感的意图表示用于多语言越狱检测
本文提出MLJailDe,一个多语言越狱检测框架,利用反向翻译数据增强和相对距离约束来提高跨语言泛化能力和鲁棒性,在11种语言上实现了98.5%的F1分数。
MoVE:通过语音专家混合模型在语音到语音翻译中保留笑声与哭泣
MoVE 提出一种 Mixture-of-LoRA-Experts 架构,在仅 30 分钟精选数据下即可在语音到语音翻译中保留 76% 的非语言发声(笑声、哭泣)。
语言感知的非失真性LLM水印
介绍了LUNA,一种语言感知的LLM水印方法,实现了跨多语言的非失真嵌入和无模型检测,显著提升了AUROC和困惑度保持。
关注未见质量:通过软混合字母估计揭示 LLM 幻觉
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。