面向低资源口语方言的线性语义分割
摘要
本文引入了一个针对低资源阿拉伯语方言的语义分割基准,并提出了一种模型,该模型在会话式语音上的性能优于标准基线模型。
arXiv:2605.06276v1 公告类型:新文章
摘要:语义分割是话语分析的核心组成部分,然而现有模型主要在基于高资源的书面文本上进行开发和评估,这限制了它们在低资源口语变体上的有效性。特别是,阿拉伯语方言表现出不正式的语法、语码转换以及弱标记的话语结构,这些都对标准的分割方法提出了挑战。在本文中,我们引入了一个新的多体裁基准(超过1000个样本),用于会话式阿拉伯语的语义分割,重点关注方言话语。该基准涵盖了转录的随意电话对话、语码转换的播客、广播新闻以及小说中的表达性对话,并由阿拉伯语母语注释者进行了标注和验证。通过这一基准,我们展示了在现代标准阿拉伯语(MSA)新闻体裁上表现良好的分割模型在方言转录语音上性能下降。此外,我们提出了一种针对局部语义连贯性和话语不连续性鲁棒性的分割模型,该模型在方言非新闻体裁上始终优于强大的基线模型。该基准和方法可以推广到其他低资源口语语言。
查看缓存全文
缓存时间: 2026/05/08 07:31
# 面向低资源口语方言的线性语义分割
来源:https://arxiv.org/html/2605.06276
Kirill Chirkunov1, Younes Samih2, Abed Alhakim Freihat1, Hanan Aldarmaki1 1Mohamed bin Zayed University of Artificial Intelligence 2IBM Research AI \{kirill\.chirkunov, abdelhakim\.freihat, hanan\.aldarmaki\}@mbzuai\.ac\.ae younes\.samih@ibm\.com
###### 摘要
语义分割是话语分析的核心组成部分,然而现有的模型主要在高资源的书面文本上开发和评估,这限制了它们在低资源口语变体上的有效性。特别是,方言阿拉伯语表现出不正规的句法、语码转换以及弱标记的话语结构,这对标准的分割方法构成了挑战。在本文中,我们引入了一个新的多体裁基准(超过1000个样本),用于评估对话式阿拉伯语中的语义分割,重点关注方言话语。该基准涵盖转录的日常电话对话、语码转换的播客、广播新闻以及小说中的表达性对话,并由母语为阿拉伯语的标注人员进行标注和验证。利用这一基准,我们展示了在MSA(现代标准阿拉伯语)新闻体裁上表现良好的分割模型在方言转录语音上的性能会下降。此外,我们提出了一种针对局部语义连贯性和对话语不连续性具有鲁棒性的分割模型,在方言非新闻体裁上始终优于强大的基线模型。该基准和方法可以推广到其他低资源口语语言。
面向低资源口语方言的线性语义分割
Kirill Chirkunov1, Younes Samih2, Abed Alhakim Freihat1, Hanan Aldarmaki1 1Mohamed bin Zayed University of Artificial Intelligence 2IBM Research AI \{kirill\.chirkunov, abdelhakim\.freihat, hanan\.aldarmaki\}@mbzuai\.ac\.ae younes\.samih@ibm\.com
## 1 引言
现代自然语言处理系统通常在一种隐含的结构假设下进行开发,即文本被组织成定义明确且连贯的单元。在长上下文摘要和检索增强生成(RAG)等任务中,模型依赖结构线索——包括段落边界、标准化标点和句法规律性——来推断语义结构并确定话语边界\(Hearst,1997 (https://arxiv.org/html/2605.06276#bib.bib9); Lukasiket al\.,2020 (https://arxiv.org/html/2605.06276#bib.bib55)\)\. 当存在此类线索时,如在维基百科文章或通讯社新闻文本中,当前模型表现良好。然而,最近的工作表明,当这些线索缺失时,分割质量会显著下降,导致下游检索和生成任务出现级联失败\(Ghinassiet al\.,2024b (https://arxiv.org/html/2605.06276#bib.bib65)\)\.
这种崩溃在**方言阿拉伯语**中尤为明显。与遵循相对一致的拼写和语法规范现代标准阿拉伯语(MSA)不同,方言阿拉伯语通常出现在对话语音的转录文本中,因此表现出许多口语特征:非标准且不一致的拼写\(Zaidan and Callison\-Burch,2014 (https://arxiv.org/html/2605.06276#bib.bib67)\)、频繁的语码转换\(Habash and Palfreyman,2022 (https://arxiv.org/html/2605.06276#bib.bib64)\)、密集的口语形态以及弱标记的话语边界。因此,非正式的阿拉伯语语音——如播客、电话对话或脱口秀——提出的分割问题与大多数NLP系统所训练的形式化文本不同。在这些场景中,主题转换的传统指标往往被非标准变异和可靠标点的缺失所掩盖\(Ghoshet al\.,2022 (https://arxiv.org/html/2605.06276#bib.bib57)\)\.
虽然在句子和词元级别的任务上取得了巨大进展,包括方言识别、情感分析和命名实体识别\(Bouamoret al\.,2018 (https://arxiv.org/html/2605.06276#bib.bib60); Darwishet al\.,2021 (https://arxiv.org/html/2605.06276#bib.bib66)\),但针对非正式阿拉伯语的话语级别建模仍处于欠发达状态。现有资源通常可以识别方言ID,但无法识别说话者在主题或叙事片段之间的转换时间。这一局限性限制了更高级别的NLP系统(如语义搜索、内容结构和长文分析)在大多数转录口语阿拉伯语内容中的适用性。大多数方言阿拉伯语资源,包括MADAR、Shami和Curra,都被组织为孤立的语句,反映了它们为句子级别分类任务而设计的特性\(Bouamoret al\.,2018 (https://arxiv.org/html/2605.06276#bib.bib60); Abu Kwaiket al\.,2018 (https://arxiv.org/html/2605.06276#bib.bib62); Jarraret al\.,2016 (https://arxiv.org/html/2605.06276#bib.bib63)\)\. 与此同时,大量的口语和语码转换阿拉伯语语音数据仍未被分割,迫使下游系统依赖启发式分块策略,从而破坏了语义连贯性\(Aliet al\.,2019 (https://arxiv.org/html/2605.06276#bib.bib30); Al Ali and Aldarmaki,2024 (https://arxiv.org/html/2605.06276#bib.bib32)\)\. 尽管最近专注于阿拉伯语的大型语言模型和多语言嵌入提高了生成流畅性和词汇覆盖率\(Jais2Team,2025 (https://arxiv.org/html/2605.06276#bib.bib19); Bari and others,2025 (https://arxiv.org/html/2605.06276#bib.bib18)\),但它们并未直接解决结构不连续性和非正式语音条件下的话语分割问题\(Bhatiaet al\.,2025 (https://arxiv.org/html/2605.06276#bib.bib4); Dunn,2023 (https://arxiv.org/html/2605.06276#bib.bib6)\)\.
**线性语义分割**(也称为**线性文本分割**)是将文本分割成连续段落的任务,其中每个段落在语义上是连贯的,并针对特定主题。例如,一通电话可能从初始话题开始,然后转向其他话题。线性语义分割模型经过训练以检测段落之间的合适边界:
> 示例(电话)\。 1Salam, 我打电话是关于我的大奖赛门票的\. 2我收到了确认邮件,但二维码在我这边打不开\. 3没问题,你能给我预订号码吗?4好的,我在系统里找到了你的订单\. 5我现在重新发送门票,你一分钟就能收到\. 6完美,谢谢\. 另外,对于6号门,我应该停在哪里?7对于6号门,最好使用西停车场\. 它是最近的\. 分割:segment\#1: 行 1,2,3,4,5, 主题:*票务问题* segment\#2: 行 6,7, 主题:*停车信息*
在这项工作中,我们介绍了一个多体裁基准,专门用于评估低资源口语阿拉伯语中的语义分割。先前的分割模型 largely 假设渐进的主题过渡和全局话语连贯性,而这些假设在口语和表达性方言阿拉伯语中会失效。最近在方言敏感嵌入方面的工作表明,阿拉伯语方言引发了独特的语义子空间\(Dunn,2023 (https://arxiv.org/html/2605.06276#bib.bib6)\),进一步 complicating 话语建模。基于这一见解,我们提出了一种新的分割模型,明确针对局部语义连贯性以及对方言变异和话语不连续性的鲁棒性。我们在多个非新闻体裁上将该模型与其他标准和最先进的语义分割模型进行评估,并显示在方言和非正式设置下相对于强基线的持续改进。我们在本工作中的贡献总结如下:
1. 我们发布了第一个开源数据集,为方言阿拉伯语提供金标准语义分割,涵盖多样化和代表性不足的体裁,包括日常电话对话、语码转换播客和表达性文学对话。
2. 我们对经典、神经和基于大型语言模型的分割方法进行了系统评估,证明在MSA新闻上表现优异的方法在方言输入上性能急剧下降,无论模型规模如何。
3. 我们提出了一种领域自适应的分割模型,优先考虑局部语义连贯性而非全局结构线索,在口语阿拉伯语特有的嘈杂和自发性话语模式中取得了持续改进。
## 2 相关工作
语义分割,定义为识别主题连贯话语单元之间的边界,是自然语言处理和话语分析中一个长期存在的问题\(Hearst,1997 (https://arxiv.org/html/2605.06276#bib.bib9); Purver,2011 (https://arxiv.org/html/2605.06276#bib.bib1)\)\. 早期方法依赖于词汇粘聚力和分布变化,而最近的神经模型通过利用分层编码器和基于Transformer的架构,在结构化的书面英语上取得了强劲的性能\(Lukasiket al\.,2020 (https://arxiv.org/html/2605.06276#bib.bib55); Glavaš and Somasundaran,2020 (https://arxiv.org/html/2605.06276#bib.bib56)\)\. 然而,这些模型隐式地依赖于编辑规律性,如标准化标点、段落边界和一致的句子结构。
越来越多的工作表明,当将在书面文本上训练的模型应用于口语或准口语语言(包括会议、呼叫中心互动和日常聊天)时,分割性能会显著下降\(Ghoshet al\.,2022 (https://arxiv.org/html/2605.06276#bib.bib57); Zhonget al\.,2022 (https://arxiv.org/html/2605.06276#bib.bib58)\)\. 口语话语在结构上是不稳定的,其特征是流利度缺失、中断、说话人重叠和隐式的主题转换。像YTSEG这样的最新基准\(Retkowski and Waibel,2024 (https://arxiv.org/html/2605.06276#bib.bib59)\)代表了在口语英语上评估分割的重要进展。尽管阿拉伯语NLP取得了巨大进展,但阿拉伯语的语义分割在现代标准阿拉伯语(MSA)之外仍 largely 未被探索。现有的阿拉伯语分割资源要么局限于形式化的MSA领域,如话题检测和跟踪框架内的广播新闻\(Maamouriet al\.,2006 (https://arxiv.org/html/2605.06276#bib.bib61)\),要么关注方言语料库中的句子级别和形态标注。像MADAR、Shami、Curra及相关词典这样的大规模方言资源\(Bouamoret al\.,2018 (https://arxiv.org/html/2605.06276#bib.bib60); Abu Kwaiket al\.,2018 (https://arxiv.org/html/2605.06276#bib.bib62); Jarraret al\.,2016 (https://arxiv.org/html/2605.06276#bib.bib63)\)对于方言识别和情感分析等任务起到了关键作用,但主要由孤立的语句组成,缺乏话语级别的结构标注。大量方言和语码转换的阿拉伯语语音数据缺乏话题级别的分割,包括多体裁广播语音如MGB-5\(Aliet al\.,2019 (https://arxiv.org/html/2605.06276#bib.bib30)\)、来自CallHome和CallFriend语料库的对话式电话语音\(Appen Pty Ltd,2006a (https://arxiv.org/html/2605.06276#bib.bib35),b (https://arxiv.org/html/2605.06276#bib.bib36),2007 (https://arxiv.org/html/2605.06276#bib.bib37)\),以及最近的阿拉伯语-英语语码转换数据集如MixAt和ZAEBUC\(Al Ali and Aldarmaki,2024 (https://arxiv.org/html/2605.06276#bib.bib32); Habash and Palfreyman,2022 (https://arxiv.org/html/2605.06276#bib.bib64)\)\. 我们的基准通过提供黄金语义分割来补充这些资源,使得在现实方言和语码转换条件下对分割模型进行受控评估成为可能。
大型语言模型和基于嵌入的表示的最新进展重新激发了对语义分割的兴趣。像Jais和ALLAM这样的阿拉伯语专注模型\(Jais2Team,2025 (https://arxiv.org/html/2605.06276#bib.bib19); Bari and others,2025 (https://arxiv.org/html/2605.06276#bib.bib18)\),以及像Gemma这样的多语言嵌入模型\(Schechter,2025 (https://arxiv.org/html/2605.06276#bib.bib16); Gemma\-Team,2025 (https://arxiv.org/html/2605.06276#bib.bib17)\),提供了强大的通用表示。然而,最近的证据表明,基于嵌入的分割方法仍然对噪声、句法变异和拼写不一致敏感,特别是在方言环境中\(Bhatiaet al\.,2025 (https://arxiv.org/html/2605.06276#bib.bib4); Alwajihet al\.,2025 (https://arxiv.org/html/2605.06276#bib.bib25)\)\. 我们的系统评估证实了这些发现,显示即使在由现代嵌入和基于LLM的基础设施驱动的情况下,在新闻上表现良好的模型在方言语音上也会急剧恶化。
## 3 数据集
### 3\.1 来源语料库和体裁
表1 (https://arxiv.org/html/2605.06276#S3.T1)总结了我们在基准中使用的所有领域、来源语料库、体裁和参考文献。下面,我们仅强调与语义分割最相关的属性。
**MGB\-5**: 对于摩洛哥阿拉伯语,我们使用公开可用的MGB-5多体裁广播语料库\(Aliet al\.,2019 (https://arxiv.org/html/2605.06276#bib.bib30); ArabicSpeech,2025 (https://arxiv.org/html/2605.06276#bib.bib31)\)\. 转录文本包含拼写变异,为我们提供了现实且嘈杂的方言文本。
**LDC**: 为了扩大口语方言阿拉伯语的覆盖面,我们纳入了三个LDC对话式电话语料库,涵盖海湾、伊拉克和黎凡特阿拉伯语\(Appen Pty Ltd,2006a (https://arxiv.org/html/2605.06276#bib.bib35),b (https://arxiv.org/html/2605.06276#bib.bib36),2007 (https://arxiv.org/html/2605.06276#bib.bib37)\)\. 根据LDC许可协议,222https://www.ldc.upenn.edu/data-management/using/licensing 我们发布的基准仅包含对原始文件块的引用,而不包含底层文本。
**播客**: 对于语码转换,我们依赖于Mixat海湾阿拉伯语-英语播客语料库\(Al Ali and Aldarmaki,2024 (https://arxiv.org/html/2605.06276#bib.bib32)\)\. 我们从每个播客节目中随机选取一致的块作为分割来源。
**Rewayat**: 为了近似口语海湾阿拉伯语对话,我们从网上发布的方言小说中提取短对话样本333https://www.rewity.com/\. 我们对它们进行轻度标准化并标注说话人轮流发言。
**OPUS**: 作为标准书面基线,我们包含了来自OPUS的现代标准阿拉伯语(MSA)新闻评论文本\(Tiedemann,2012 (https://arxiv.org/html/2605.06276#bib.bib41)\)\. 这个结构良好的来源作为基线,用于衡量相对于基准其他部分的表现。
| 领域 | 来源语料库 / 方言 | 描述 | 体裁 | 参考文献 |
| :--- | :--- | :--- | :--- | :--- |
| 干净文本 | OPUS | 新闻评论(现代标准阿拉伯语) | 来自OPUS(平行语料库)的结构良好、干净的新文本。文本分割的传统基准。 | economy, sports, politics | \(Tiedemann,2012 (https://arxiv.org/html/2605.06276#bib.bib41)\) |
| | Rewayat | 对话(海湾) | 从方言小说中提取的对话。书面表达性/比喻性言语。 | drama, history | Web sources |
| 嘈杂文本 | MGB-5 | 多体裁广播转录(摩洛哥阿拉伯语) | 手动标注的YouTube节目。允许拼写变异的短短语。 | comedy, cooking, family shows, fashion, drama, science, sports | \(Aliet al\.,2019 (https://arxiv.org/html/2605.06276#bib.bib30); ArabicSpeech,2025 (https://arxiv.org/html/2605.06276#bib.bib31)\) |
| | LDC | 对话式电话语音转录(海湾/伊拉克/黎凡特) | 自发的双方面谈口语电话对话转录。 | casual | \(Appen Pty Ltd,2006a (https://arxiv.org/html/2605.06276#bib.bib35),b (https://arxiv.org/html/2605.06276#bib.bib36),2007 (https://arxiv.org/html/2605.06276#bib.bib37)\) |
| 语码转换 | Podcasts | 转录,来自Mixat的海湾-英语语音 | 高质量录制并转录的播客 | | |相似文章
Dziri Voicebot:面向阿尔及利亚方言的端到端低资源语音对话系统
本文提出了一种模块化的端到端语音对话系统,适用于低资源的阿尔及利亚方言,集成了ASR、NLU、RAG和TTS,并使用了专用数据集和微调模型。
基于迁移学习与数据增强的低资源汉语方言辨识
本文提出了一种新颖的框架(CDDTLDA),利用迁移学习和数据增强技术,在低资源条件下提升汉语方言辨识能力,并在两个基准语料库上取得了最先进的结果。
面向低资源阿尔及利亚方言的端到端混合谣言检测框架
本文提出了一种面向低资源阿尔及利亚方言社交媒体内容的端到端混合谣言检测框架,通过结合Transformer嵌入和经典分类器,达到了0.84的F1分数。
语音识别中的Convex低资源口音鲁棒语言检测
本文介绍了CLD,一种基于凸优化的轻量级语言检测头(用于ASR),在不到100个训练样本下实现97-98%的准确率,同时将计算成本降低13倍,解决了5种语言和24种子方言的口音和方言鲁棒性问题。
基于语义奖励的强化学习实现低资源语言扩展而无对齐代价
本文提出使用基于语义奖励的强化学习(通过GRPO)来将LLM扩展到低资源语言,避免了典型的灾难性遗忘对齐代价,展示了相比监督微调更好的语义质量和迁移性。