语音强调模型能否跨语言和情感泛化？

arXiv cs.CL 2026/06/29 04:00 论文

speech-emphasis prosody multilingual emotion model-generalization corpus paralinguistics

摘要

介绍了MMEE，一个包含7种语言、34种情感类别、共10,000条话语的多语言多情感强调语料库，并在多种迁移设置下对强调检测模型进行了基准测试，发现多语言训练能显著提升鲁棒性，而单语言模型的零样本迁移能力有限。

arXiv:2606.27717v1 Announce Type: new 摘要：韵律强调因语言、情感和说话风格而异，但现有的强调检测模型大多在单语言中性朗读语音上训练和评估。我们推出了MMEE（多语言多情感强调语料库），包含7种语言、34种情感/风格类别、共10,000条专业录音的表达性话语（14.13小时），并提供了三级感知标签（每个样本10个标注）。我们在单语言、跨语言、多语言、跨情感、跨数据集以及不同数据规模设置下对两种先进架构进行了基准测试。单语言模型在类型学上相距较远的语言上表现下降，零样本迁移能力有限；而多语言训练则显著提升了鲁棒性。模型在高唤醒和低唤醒情感之间能够稳健迁移；合成基准与感知基准之间的双向迁移表明存在共享的韵律结构；即使在较小的训练规模下，模型性能依然保持稳健。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:23

# 语音重音模型能否跨语言和情感泛化？
来源：https://arxiv.org/html/2606.27717
Wei Aneja Su Wang Chen Jin

###### 摘要

韵律重音在不同语言、情感和说话风格中有所差异，然而现有的重音检测模型大多是在单语中性的朗读语音上进行训练和评估的。我们引入了MMEE（多语言多情感重音）语料库，该语料库包含7种语言和34种情感/风格类别下的10,000条专业录制的表达性话语（14.13小时），并带有三级感知标签（每个样本10个标注）。我们在单语、跨语言、多语言、跨情感、跨数据集和数据规模设置下，对两种最先进的架构进行了基准测试。单语模型在零样本迁移中表现有限，在类型学上距离较远的语言上性能下降，而多语言训练则显著提高了鲁棒性。模型在高唤醒度和低唤醒度情感之间具有稳健的迁移能力；合成基准与感知基准之间的双向迁移表明存在共享的韵律结构；即使在较小的训练规模下，模型性能依然保持稳健。

###### 关键词：

语音，重音，韵律，情感，副语言学，多语言

## 1 引言

韵律重音在口语交流中扮演着关键角色，传达对比、焦点、说话者意图和情感。例如，相同的词语根据重音的不同可以传达不同的含义：“你不能坐*这里*”可以拒绝一个地点，而“你不能*坐*在这里”可以拒绝动作本身。重音的精确建模对于富有表现力的文本转语音和韵律控制[seshadri2022emphasis,Suni2020,roekhaut10_speechprosody,joly23_ssw,liu2024emphasis,chien24b_interspeech,oh2024diffprosody,eme-tts,BauerZMD25_emphasiscontrol_SSW]、语音到语音翻译[deseyssel2023emphassess]以及对用户意图的推理[yosha2025stresstest]至关重要。尽管在语音韵律建模方面已有许多努力[vaidya,morrison2024crowdsourced,deseyssel2023emphassess,de2023prosaudit,yosha2025whistress,hung-etal-2025-exploring]，但它在多语言和情感表达性场景下的研究仍然不足。随着我们在全球范围内部署这些系统，构建鲁棒、可泛化的重音检测模型，使其能够准确捕捉跨语言、跨文化和跨情感状态的重音线索，变得至关重要。

在开发重音模型和基准方面已有大量工作。Morrison等人[morrison2024crowdsourced]通过众包方式从有声读物的LibriTTS[zen2019libritts]朗读语音中获取感知重音标注，并训练了声学模型用于突显预测。EmphAssess[deseyssel2023emphassess]对语音转语音系统中的重音迁移进行基准测试，使用了带有指定重音的合成语音数据。WhiStress[yosha2025whistress]通过一个词级别的重音检测头增强冻结的Whisper模型，该模型在合成语音和LLM生成的重音标签上进行训练。早期的专家标注语料库，如Aix-MARSEC[Auran2004TheAP]，通过窄节奏单元（NRU）表示法编码结构性的重音模式。

然而，现有方法存在几个共同的局限性：它们主要只处理英语，往往依赖于合成或指定的重音而非人类感知判断，并且说话的样式范围有限。此外，重音通常被视为一个二分类任务，尽管其本质上具有分级性。因此，目前尚不清楚重音检测模型是学习语言特定的韵律模式，还是能够跨不同的情感和说话风格进行泛化，因为在不同情况下重音的基音或时长模式会有所不同（例如，高唤醒度与低唤醒度情感）。

为了解决这些空白，我们利用MMEE进行了一项大规模的多语言研究。MMEE是一个精心策划的表达性语音语料库，包含跨越7种宏观语言、10种区域变体和34种情绪与说话风格的10,000个样本，并带有人工标注的、分级的、词级别的重音分数。我们提出以下问题：(1) 重音检测器在跨语言和跨语系时迁移效果如何？(2) 多语言训练是否比单语训练更能提高鲁棒性？(3) 在一个唤醒度体系上训练的模型是否能泛化到另一个唤醒度体系？(4) 人类感知标签和合成重音标签是否支持可迁移的表示？利用MMEE，我们对两种最先进的语音重音检测模型EmphaClass[deseyssel2023emphassess]和WhiStress[yosha2025whistress]进行了基准测试，涵盖了以下设置：单语、跨语言、多语言、跨情感唤醒度、跨数据集泛化以及训练数据集规模。111网站：https://multilingual-speech-emphasis.github.io/

参见标题图1：Prolific上的语音重音标注界面。参与者在听音频后，点击他们认为在转录文本中被强调的词语。表1：重音数据集比较。标签来源：人类 = 听众标记感知到的重音；LLM = GPT-4o-mini 标记重音；指定 = 脚本指定重音，TTS合成；专家 = 语言学家应用NRU。参见标题图2：EmphaClass和WhiStress的二分类准确率和标量（皮尔逊相关系数）结果。“all”数据集是完整的多语言集（10个区域变体的测试集合并）。“en”代表“en1”（英语美洲）和“en2”（英语其他）合并；“es”代表“es-SP”和“es-LATAM”合并；“pt”代表“pt-BR”和“pt-PT”合并。
## 2 数据集

### 2.1 语音语料库

我们利用内部收集的一个专有性多语言表达性语音语料库作为重音标注和分析的基础。该数据集涵盖了多种语言和方言变体下的34类情绪和说话风格。脚本及相应的表演指导是在LLM的协助下，为每种语言和风格类别生成的。脚本设计旨在自然引发韵律变化，而指导则描述了目标情绪/风格并参考了重音放置。在实际操作中，配音演员常常会对脚本进行自己的诠释，从而利用诸如增强响度、提高基音和延长时长等韵律线索，产生多样化的重音实现。

我们通过试音环节招募和筛选母语配音演员，评估其表演的自然度、表现力以及与预期情绪风格的一致性。每位合格的配音演员表演一套覆盖所有情绪和说话风格的脚本，并对录音进行声学质量审查（低背景噪音、有限的混响、无 audible 失真）。由此产生的语料库包含7种宏观语言下的10个区域类别，每种口音大约20位说话者：英语美洲（北美、南部、非裔美国人）、英语其他（印度、澳大利亚、英国）、西班牙语（西班牙）、西班牙语（拉丁美洲）、葡萄牙语（葡萄牙）、葡萄牙语（巴西）、德语、法语、意大利语和普通话。

### 2.2 数据整理

我们通过一个多阶段的预处理流水线，从语音语料库中为每个语言类别精选了1,000个高质量的话语（总计10,000个，14.13小时），以生成干净、精确分割的音频片段，用于细粒度的重音标注。

原始录音经过统一的背景噪声降低处理。我们使用Qwen3-ASR[Qwen3-ASR]获取词级时间戳和转录文本，将录音分割成1–2个句子的话语，并在RMS能量包络的低能量谷值处优化边界，以避免截断音素或混入杂音。每个片段使用Qwen3-ASR[Qwen3-ASR]重新转录，并使用标准化序列相似度（阈值≥≥99%）与源脚本进行比较。对波形突变边界、过长的起始/尾随静音（>>1秒）以及异常短的单词时长进行额外的信号级检查。执行修剪敏感性测试（从两端各修剪200毫秒并重新测量相似度）以标记过于紧凑的边界。未通过任何检查的片段将被迭代地重新裁剪和重新验证。被标记的案例（例如混入杂音或边界不准确）通过语音活动检测（Silero-VAD）[SileroVAD]进行调整，以定位精确的语音起始和结束，然后重新验证。

为了过滤掉语音表演中的伪影，我们使用GPT-5.2作为评判员[zheng2023judging]，将每个转录文本与其源脚本进行比较，要求三个独立运行的结果全部接受，以减轻幻觉风险。在第2.3节（https://arxiv.org/html/2606.27717#S2.SS3）中，人工判断的音频-转录匹配过滤提供了额外的安全保障。此外，为了创建多样化、鲁棒的数据集，我们根据脚本[lee2021deduplicating]移除了每种语言中的重复话语，并将情绪分布平衡到每个1,000样本的语言类别中大约29-30个样本/情绪。

### 2.3 重音标注

为了获取词级重音，我们在Prolific上征集人工标注者。在我们图1（https://arxiv.org/html/2606.27717#S1.F1）的界面中，标注者听音频并在他们感知到的被强调的词语上进行标记，采用三级量表：未强调、强调、强烈强调。这种分级方案捕捉了超越二分类的细微感知重音差异。

将重音定义为母语听众的感知判断[morrison2024crowdsourced]，我们向流利的母语使用者而非训练有素的语言学家众包重音标注。标注者的先决条件包括：无听力或读写困难；研究语言是他们的主要且流利的语言；拥有本科学位或更高学历；Prolific批准率达到99-100%；之前至少完成过25项研究。我们为每种语言请求500个任务槽（每任务20个音频样本），目标是每个样本获得10个标注。标注者获得每小时15美元的报酬。

我们的Prolific界面包括详细说明和一个示例。我们包含以下质量检查：标注者被要求(1) 至少听一遍每个音频片段，(2) 每个样本至少选择一个被强调的词语，(3) 在一个话语中标记不超过30%的词语为被强调。所有提交都是最终的，没有机会修改早期回答。

标注者可以标记音频是否与显示的转录文本匹配。在10,000个样本中，有78个（0.78%）有≥≥2个不匹配报告；经过系统的Qwen3-ASR[Qwen3-ASR]和GPT-5.2审查后，我们重新裁剪了8个存在实际裁剪问题的片段（截断的音节、混入杂音或无关声音），而其余70个被确认为有效。

由于偶尔的标注者退出，我们动态启动针对标注不足样本的重新运行。对于超过10个标注的样本，我们使用固定种子进行随机子采样，以精确获得10个标注，确保可重复性。在以下实验中，我们以两种模式汇总标注：二分类和标量。在二分类模式下，如果10个标注者中超过一半标记一个词为被强调，则该词被视为被强调。在标量模式下，我们使用每个标注者序数得分（0 = 未强调，0.5 = 强调，1 = 强烈强调）的平均值，生成一个比单独的二分类标签更丰富的连续突显得分；对10个标注者进行平均，降低了对任何单个听众感知的敏感性。

### 2.4 数据集比较

表1（https://arxiv.org/html/2606.27717#S1.T1）将我们的数据集与现有的重音数据集进行了比较。先前的工作属于三种范式。(1) 带有指定或LLM生成标签的合成TTS：EmphAssess[deseyssel2023emphassess]使用带有指定重音标记的转录文本；TTS模型被指示强调这些词语，因此标签来自合成前的脚本，而非听力判断。TinyStress-15K[yosha2025whistress]使用GPT-4o-mini选择重读词，然后使用带有SSML韵律调整的Google TTS进行合成；标签是LLM生成的，而非人工。(2) 众包感知标注：Morrison等人[morrison2024crowdsourced]使用MTurk工作人员，他们听到LibriTTS朗读语音并点击被强调的词语；标签是人类的感知判断，与我们的数据集相同。(3) 专家语言标注：Aix-MARSEC[Auran2004TheAP,LEE201729]使用Jassem的NRU（窄节奏单元）表示法；专家语言学家标记韵律结构；如果一个词包含NRU的第一个音节，则该词为重读。这是音系学的（结构性的），而非感知性的。

据我们所知，我们的数据集是第一个结合了(i)多语言覆盖（7种宏观语言，10种变体），(ii)跨越34个类别的表达性情感语音，以及(iii)分级的（3级）人工重音标注，并采用每个样本平衡的10个标注设计。

我们报告了数据集中的多个一致性指标。当将三个等级折叠为二分类（强调与未强调）时，平均成对Cohen's κ\\kappa范围从0.285（中文，一般）到0.518（葡萄牙语巴西，中等），汇总值为0.451（中等）——显著高于Morrison等人在LibriTTS上报告的Cohen's κ\\kappa值为0.226（一般）。Fleiss' κ\\kappa（汇总0.446，95% CI [0.442, 0.449]）得出类似值。Krippendorff's α\\alpha（序数，3级）在汇总数据集上为0.461（95% CI [0.457, 0.465]），支持了3级方案的有效性。中文显示出较低的一致性，这可能是由于其声调系统和不同的重音韵律线索所致。重音率（被强调词的百分比）因语言而异（15–22%），且在不同情绪间相对稳定（17–22%），表明脚本能够一致地引发重音。

## 3 方法

我们在MMEE上对两种最先进的模型EmphaClass[deseyssel2023emphassess]和WhiStress[yosha2025whistress]进行基准测试，使用固定的80/10/10训练/验证/测试划分，模型间共享。所有实验在8块NVIDIA 80 GB A100上进行。

EmphaClass[deseyssel2023emphassess]微调了一个1B参数的多元语言SSL模型（XLS-R）[xlsr]，该模型基于Wav2Vec 2.0[wav2vec2]，用于帧级二分类。如果一个词超过50%的帧被分类为强调，则该词被视为被强调。我们将其扩展到标量回归，方法是将分类头替换为回归头（线性 + sigmoid），并使用MSE损失进行训练。对于可变长度序列，我们将模型的原始零填充切换为-100，以便填充位置被排除在损失之外，并且不与“未强调”类别混淆。我们训练15个epoch，学习率为7.97×10−57.97×10^{-5}，12.5%预热，批量大小为8（多语言/唤醒度实验为4），梯度累积步数为3。

WhiStress[yosha2025whistress]由一个冻结的Whisper[radford2022whisper]编码器-解码器、一个额外的解码器块和一个产生每词重音得分的FCNN分类器头组成。WhiStress的原始版本使用whisper-small.en检查点。为了支持多语言处理，我们使用whisper-small检查点，并向Whisper添加语言条件，传递语言标记用于解码。来自编码器和解码器第9层的隐藏状态在额外的解码器块中进行组合，然后传递到分类器头。训练使用2个epoch，学习率5×10−45×10^{-4}，5%预热，权重衰减0.01，批量大小32。二分类模式使用加权交叉熵损失（[1, 2.33]）；标量模式使用BCE损失。

参见标题图3：作为训练数据规模函数的二分类（准确率，F1）和标量（皮尔逊相关系数）性能。表2：高/低唤醒度评估（二分类准确率和标量皮尔逊相关系数）。表3：跨数据集泛化

语音强调模型能否跨语言和情感泛化？

相似文章

EmoS：面向细粒度流式情感理解的高保真多模态基准

SpeechEQ：在社交感知语音对话模型中评估情商指数的基准

情绪会影响大语言模型的道德判断吗？

模型在哪里找到快乐？开源LLM中的情感向量

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

提交意见反馈