学习听出犹豫:面向非流利感知的连续学习ASR
摘要
本文提出了一种连续学习方法,将非流利标记整合到预训练的ASR模型中,解决了灾难性遗忘问题,并提升了对非流利语音的识别能力。
arXiv:2606.14391v1 公告类型:新论文
摘要:尽管大规模自动语音识别(ASR)取得了进展,但非流利语音仍然具有挑战性,因为最先进的系统通常被优化以忽略非流利现象,导致信息丢失和幻觉。先前的工作主要集中在逐字转录和非流利标记的整合上,但在有限数据集上调整模型可能导致对通用领域知识的灾难性遗忘。我们通过利用具有显式非流利标记的连续学习(CL)来弥补这一差距。我们首先将这些标记引入预训练的ASR模型,以建立稳定的标记机制,然后继续在具有不同非流利分布的其他数据集上进行训练。通过对训练过程中模型动态的详细分析,我们识别了标记学习与ASR性能之间的权衡,以及跨CL方法共享的一致交叉注意力头部机制。
查看缓存全文
缓存时间: 2026/06/15 08:58
# 学习听出犹豫:面向非流利语音的持续学习自动语音识别
来源:https://arxiv.org/html/2606.14391
Kordt Pekarek Rosin Lee Wermter
###### 摘要
尽管大规模自动语音识别(ASR)取得了进展,非流利语音仍然具有挑战性,因为当前最先进的系统通常被优化以忽略非流利现象,导致信息丢失和幻觉。先前的工作集中于逐字转录和集成非流利标记,但在有限数据集上适配模型可能导致通用领域知识的灾难性遗忘。我们通过利用带有显式非流利标记的持续学习(CL)来解决这一差距。我们首先将这些标记引入预训练的ASR模型以建立稳定的标记机制,然后在具有不同非流利分布的数据集上继续训练。通过对训练过程中模型动态的详细分析,我们识别出标记学习与ASR性能之间的权衡,以及跨CL方法的一致交叉注意力头机制。
###### 关键词:
语音识别,持续学习,逐字转录,非流利语音识别
## 1 引言
尽管近年来由于在大规模音频数据上训练的模型的引入,自动语音识别取得了显著进步[Radford2022],非流利语音识别却未能同步发展[FENG2024101567]。非流利是语音中的扰动,其严重程度从简单的填充词(“呃”、“嗯”)、犹豫、词汇或短语修正,到由潜在疾病导致的含糊不清的言语或口吃不等。然而,当前最先进的模型通常被训练成忽略非流利现象以产生干净转录[hwang-etal-2025-evaluating, mujtaba-etal-2024-lost],这可能导致错误生成的语句,即幻觉或虚构,以及信息的普遍丢失和透明度下降[lin25b_slate, PGKKW25]。
为解决此问题并提升非流利语音的性能,MacDonald 等人[MacDonald2021euphonia]建议为每位说话者个性化模型,而另一些工作则致力于创建更逐字的转录[lin25b_slate, zusag24_interspeech]。此类逐字转录及随后包含的非流利现象能够捕捉临床相关的语音信息[soleimani2024],改善用于时间戳的音频-文本对齐[zusag24_interspeech],甚至提升下游ASR性能[lin25b_slate, whisperd]。先前的工作也引入了特定标记或令牌来表示语音非流利现象,方法是在额外标注的语音语料上训练预训练模型,既用于从话语中检测痴呆[soleimani2024],也用于提升非流利[whisperd]或自发性语音[zusag24_interspeech]的性能。
参见图注
图1:所选数据集上非流利现象的分布。百分比是针对每个数据集的分布计算的。然而,当不加选择地应用于小规模数据集时,这些方法常常导致领域无关性能的下降[cl_survey],这种现象被称为灾难性遗忘[vandeven2024clcf]。一种朴素的应对方法是联合训练模型于新数据和整个预训练数据。由于语音模式随时间变化且新数据不断出现,这一过程必须为每个新数据实例重复,效率极低。此外,由于非流利语音的训练数据往往有限且受隐私法规约束,这种方法通常不可行。
持续学习(CL)是一种通过正则化、重放或架构方法来平衡学习可塑性与记忆稳定性以缓解灾难性遗忘的范式[cl_survey]。此类方法提供了一种高效的方式来集成异构数据集和语音模式,而无需牺牲预训练模型的性能。CL已成功应用于非标准语音的领域适配[vandereeckt23_interspeech, PW23]和低资源语言[dellalibera_clmasr, song24_interspeech],但尚未用于非流利或受损语音。此外,非流利事件和非流利转录带来了有别于典型ASR领域适配任务的独特挑战,而CL有效性的证据在此方面仍待探索。
在本工作中,我们使用非流利标记来处理非流利语音识别,这些标记在专注于非流利的ASR研究中常见[lin25b_slate, zusag24_interspeech, whisperd],并且也出现在TalkBank[talkbank_sla, dementiabank]收录的数据集的手动转录中。我们将这些标记聚合为四种令牌类型,并使用不同的CL方法将其引入预训练模型以保留模型性能。然后,我们在两个具有不同非流利分布的标注数据集上继续训练,以检验已建立的标记表示在持续适配中的鲁棒性。我们检查了不同CL方法下的适配差异,并发现尽管存在性能差异,成功的标记学习在很大程度上遵循共享的注意力头特化模式。
## 2 方法论
为了启用更逐字的转录并增加模型产生的信息量,我们将非流利标记引入预训练骨干模型。我们结合持续学习(CL)与可解释性方法,在三个数据集上研究内部特化机制,同时保留持续模型适配下的性能。
### 2.1 数据集
为了涵盖健康和非健康的非流利语音,我们使用了来自TalkBank仓库[talkbank_sla, dementiabank]的三个数据集,这些数据集基于数据可用性、样本数量、非流利分布和领域进行选择:标准马来西亚英语(SME)语料库[sme_thesis]、Pitt语料库[pitt]和Delaware语料库[dementiabank]。所有三个数据集均使用统一的CHAT转录格式[chat],确保标注语法的一致性。它们的转录还包含手动标注的非流利标记,允许在训练期间直接映射到非流利令牌。
SME语料库[sme_thesis]包含来自马来西亚大学生(第二语言学习者)的11.79小时英语语音。该数据集代表了一个常见的说话者子群体,他们通常健康,但由于语言差距可能在语音产出中表现出非流利。Pitt语料库[pitt]是来自患有痴呆或阿尔茨海默病的老年说话者的21.30小时语音集合,而Delaware语料库[dementiabank]包含来自轻度认知障碍人群的9.72小时语音。Pitt和Delaware均包含健康个体的控制组语音,我们将其均匀分配到训练和验证集中。在CL设置中,我们仅包含Pitt语料库的12.11小时以减少数据集大小的影响。我们使用这些数据集来展示我们的方法在不同严重程度和非流利分布下的鲁棒性(见图1)。在CL设置中,我们还在重放方法的重放缓冲区中包含了少量LibriSpeech数据[librispeech]作为无扰动语音的代表。
### 2.2 持续学习设置
我们使用 whisper-small.en(一个预训练的纯英文模型)作为CL设置的骨干。为了保留模型的预训练性能并处理数据集中的不同非流利分布,我们使用了四种常用于领域增量ASR训练的CL方法:弹性权重巩固(EWC)[ewc]、经验重放(ER)[experiencereplay]、A-GEM[AGEM]和权重平均(WA)[vandereeckt23_interspeech]。
EWC[ewc]是一种基于正则化的方法,它识别对先前学习任务重要的模型参数,并惩罚对这些参数的更新(使用对角Fisher信息矩阵)。对于ER[experiencereplay],一小部分旧数据保存在内存中(重放缓冲区),并用于补充当前任务的训练数据,从而防止剧烈的梯度更新。A-GEM[AGEM]是一种基于梯度的方法,它计算重放缓冲区梯度与当前数据集训练数据梯度的点积,以惩罚方向相反的梯度。对于WA[vandereeckt23_interspeech],旧模型的权重保存在内存中,而另一个版本在新任务上训练。训练完成后,模型用旧权重和新权重的平均值进行更新。
为了评估通用ASR性能,我们使用预处理词错误率(pWER),即在计算指标之前从转录中移除标点、特殊字符和非流利标记。为了评估CL期间的记忆稳定性和学习可塑性,我们使用Wang等人[cl_survey]定义的指标,并进行了微小修改以适应pWER和标记F1替代准确率。平均词错误率(A-WER)和平均增量词错误率(AI-WER)分别衡量当前步骤和整个CL轨迹上的整体pWER性能。对于标记预测,我们类似地报告平均F1(A-F1)和平均增量F1(AI-F1),用每个任务的标记F1替代每个任务的准确率。F1得分使用词袋方法计算。后向迁移(BWT)和遗忘度量(FM)评估记忆稳定性,而前向迁移(FWT)和顽固度量(IM)评估模型的学习可塑性。
### 2.3 可解释性方法
鉴于Transformer模型倾向于发展特化和冗余[NEURIPS2019_2c601ad9, ahrens_visually_2023],我们研究非流利事件的转录是否会在模型内部引发特化电路。这在CL设置中尤其相关,因为CL方法可能产生相似的聚合错误率,但诱导出不同的适配动态和内部策略。通过探测注意力头,我们旨在评估非流利处理是否集中在一小部分头上(特化电路),以及这些机制在不同CL方法之间的稳定性如何,从而提供对鲁棒性和潜在方法特定权衡的洞察。我们遵循Michel等人[NEURIPS2019_2c601ad9]的头部掩码方法,该方法为每个注意力头h引入一个可学习的标量门ξ_h。为了估计令牌级头部重要性I_h,我们计算令牌目标相对于ξ_h的敏感性,并对一组令牌实例X_t进行平均:
I_h = E_{x∼X_t}[∂L(x)/∂ξ_h] (1)
基于这个每头重要性I_h,我们对非流利令牌的头部归因进行排名,并将其与在非非流利令牌上平均的重要性排名进行比较。具体来说,我们计算top-10提升度,定义为头h出现在非流利令牌top-10排名中的频率与其在基线分布(所有其他令牌)中频率的差异:
Lift_h = P(h ∈ Top-k | X_t) - P(h ∈ Top-k | X_base) (2)
为了确认头部归因,我们使用零掩码消除具有高top-10提升得分的头部。我们检查令牌发射的变化,并使用pWER控制整体性能。
### 2.4 实验
为了评估将非流利令牌引入预训练模型以及在持续学习(CL)设置中产生的任务性能,我们进行了两个实验:(i) 非流利令牌引入 和 (ii) 顺序持续适配。根据文献[zusag24_interspeech, whisperd],我们将相似的非流利事件聚合为四种不同的令牌类型:填充词(FILLER;例如,“um”、“uh”)、重复/修正(REP;词语和音素层面)、中断(DISRUPT;例如,咳嗽、笑声)和停顿(PAUSE)。
在 **非流利令牌引入** 实验(参见第3.1节)中,我们专注于将这些令牌引入预训练模型,而不过度拟合新数据集,即保持非非流利语音的高性能。我们在带有非流利令牌的SME数据集上使用上述CL技术微调骨干。SME覆盖了最接近骨干的领域,并且主要仅包含两种标记类型:FILLER和REP。此外,我们分析了非流利令牌的引入是否与内部模型机制的出现相关,以及这些机制在不同CL方法之间是否存在差异。
对于 **顺序持续适配** 实验(参见第3.2节),我们选择来自非流利令牌引入阶段性能最佳的模型:一个显示出成功标记集成(高标记F1)同时保持最小pWER权衡的模型。然后,我们继续用Pitt和Delaware语料库扩展模型,这两个非流利语音数据集在领域和非流利分布上有所不同(见图1)。通过这样做,我们通过在更具挑战性的数据集上顺序训练来近似终身模型适配不断变化的领域和说话者变体。我们从Pitt语料库开始,它引入了大量停顿标记,也增加了中断的数量。之后,我们在Delaware语料库上训练模型,该库总体上标记最少,因此特别挑战模型保留它们。
我们确保两个实验的训练和评估划分在说话者层面不重叠,并将每个数据集按80/20划分。对于重放缓冲区,我们从每个数据集的训练数据中随机采样10%,贪婪地优先考虑稀有非流利标记,使得令牌分布与完整数据集相似。我们在每个数据集上训练10个epoch,学习率为2e-5,批大小为16,确保在标记分数和ASR性能上均收敛。结果在三次运行中取平均。根据文献[ewc, experieacereplay]和我们的实证评估,我们在重放缓冲区中为ER包含每批25%的旧数据,并将EWC的重要性参数设为1000。除了第2.2节讨论的一般性能和CL指标外,我们还使用微平均和宏平均F1得分来衡量非流利标记识别。对于非流利令牌引入实验,我们使用微平均F1来总结已引入标记的整体集成情况,而宏平均F1则用于在全部标记引入后评估每种类型的平衡性。
## 3 结果
### 3.1 非流利令牌引入
表1:非流利令牌引入:在SME和LibriSpeech(LS)上训练10个epoch后,3个种子的预处理词错误率(pWER)平均值。我们还报告了SME上标记预测的微平均F1得分。
我们在SME上使用不同的CL方法进行训练,以检验在非非流利语音(LibriSpeech test-clean, LS)上的性能保留程度,以及标记学习的成效。相似文章
通过激活引导克服全双工语音语言模型中的状态惯性
本文识别了全双工语音语言模型中的"状态惯性",即在用户打断时,模型的内部预测焦点滞后,并提出了一种无需训练的激活引导方法来改善打断处理。
面向大型语言模型归因引导的持续学习
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。
你在说我的语言吗?关于多模态大语言模型中的口语遵循问题
本文解决了多模态大语言模型在ASR中的口语遵循问题,提出了一种软提示方法和新颖的度量标准来量化语言违规。它评估了三种缓解策略——零样本提示、监督微调和思维链推理——在多种语言上的效果,以提高转录保真度。
AgentCL: 面向语言代理中持续学习的严谨评估
提出了一个全面的评估框架,用于语言代理中的持续学习,强调受控任务流和记忆设计分析,以更好地评估可复用经验和学习稳定性。
MoDiCoL:面向鲁棒语音识别的模块化诊断持续学习数据集
本文介绍了 MoDiCoL,一个用于鲁棒语音识别的模块化诊断持续学习数据集,能够对语言内容、说话人特征和声学环境进行受控分析,并提出了一个持续学习课程,以研究鲁棒性是如何获取、迁移和遗忘的。