Afrispeech Semantics:评估跨领域和口音的语音语言模型中的音频语义推理
摘要
本文介绍了Afrispeech Semantics,这是一个用于评估音频语言模型在语义推理任务上的基准测试,包括跨多种领域和口音的蕴含、一致性、合理性、口音漂移和口音抑制。
arXiv:2606.11219v1 公告类型:新
摘要:音频语言模型(ALMs)越来越多地用于基于语音的理解,但其在转录、文本到音频检索、字幕生成和问答准确性之外的语义推理能力仍未得到充分基准测试。特别是,口音变化、领域偏移和语义过度推断对音频推理的影响尚不明确。我们评估了音频语言模型在五项语义和副语言推理任务上的表现:蕴含、一致性、合理性、口音漂移和口音抑制。这些任务共同评估模型以口语音频作为主要证据来源进行推理的能力,包括文本假设是否可以被音频推断、矛盾或无法确定,陈述是否与口语内容一致或冲突,主张在话语背景下是否合理,以及模型预测在口音变化下是否保持稳定或适当受限。这些发现突显了当前音频推理评估中的关键局限性,并有望为更稳健和公平的ALM设计与评估提供指导。
查看缓存全文
缓存时间: 2026/06/11 13:36
# Afrispeech Semantics: 评估跨领域和口音的口语语言模型中的音频-语义推理 来源:https://arxiv.org/html/2606.11219 Chibuzor Okocha 佛罗里达大学 [email protected] & Christan Grant 佛罗里达大学 [email protected] ###### 摘要 音频语言模型(ALMs)越来越多地被用于基于语音的理解;然而,它们在转录、文本到音频检索、字幕生成和问答准确性之外的语义推理能力仍未得到充分基准测试。特别是,口音变异、领域偏移和语义过度推理对音频推理的影响尚不明确。我们评估了音频语言模型在五个语义和副语言推理任务上的表现:蕴含、一致性、合理性、口音漂移和口音约束。这些任务共同评估模型将口语音频作为主要证据来源进行推理的能力,包括文本假设是否可以从音频中推断、矛盾或无法确定,语句是否与口语内容一致或冲突,声称在给定话语中是否合理,以及模型预测在不同口音变化下是否保持稳定或适当约束。这些发现揭示了当前音频推理评估中的关键局限性,并希望为更稳健和公平的 ALM 设计与评估提供指导。 Afrispeech Semantics: 评估跨领域和口音的口语语言模型中的音频-语义推理 Chibuzor Okocha 佛罗里达大学 [email protected] Christan Grant 佛罗里达大学 [email protected] ## 1 引言 最近的多模态模型,通常称为音频语言模型(ALMs),通过对比学习 Elizalde 等人 (2023 (https://arxiv.org/html/2606.11219#bib.bib132)) 或下一标记预测目标 Chu 等人 (2024 (https://arxiv.org/html/2606.11219#bib.bib83)); Tang 等人 (2023 (https://arxiv.org/html/2606.11219#bib.bib120)); goel2025; kimiteam2025; Yu 等人 (https://arxiv.org/html/2606.11219#bib.bib41); Ghosh 等人 (2024 (https://arxiv.org/html/2606.11219#bib.bib133)) 在大量的音频-文本对上进行训练。一旦训练完成,ALMs 可以通过提示执行各种基于音频的任务,包括字幕生成、检索和问答,并在许多已建立的基准测试中表现出强劲的性能 sakshi2024; Wang 等人 (2024 (https://arxiv.org/html/2606.11219#bib.bib118)); openai2024。尽管取得了这些进展,大多数现有评估主要关注表面层面的正确性,而不是基于音频信号的语义推理 Wang 等人 (2024 (https://arxiv.org/html/2606.11219#bib.bib118)); yang2025b; yang2024b; gao2025a。在开放式设置中,ALMs 常常因生成合理的回答而获得奖励,即使这些回答依赖于上下文假设或语言先验,而非音频中存在的证据 chiang2025。这种局限性对于交互式和面向推理的应用尤其成问题,在这些应用中,模型需要推断从听到的内容中能得出什么——以及不能得出什么 Sanni 等人 (2025 (https://arxiv.org/html/2606.11219#bib.bib113))。为了弥补这一差距,先前的工作引入了音频蕴含作为一项专注于评估音频语言模型演绎推理的任务 deshmukh2023,将问题框架为确定文本假设是否被音频前提所蕴含、矛盾或未支持。虽然这种表述提供了一个原则性的起点,但它只捕捉了 ALMs 面临的推理挑战的一小部分。现有的基准测试在领域多样性方面有限,并且没有明确测试诸如语义过度推理、对陌生命名实体的鲁棒性或对口音和发音变化的敏感性等失败模式 hi2024; Wang 等人 (2024 (https://arxiv.org/html/2606.11219#bib.bib118)); sakshi2024。在这项工作中,我们将音频推理的评估扩展到单一的蕴含任务或演绎推理任务之外。我们引入了一个统一的语义推理框架,包含多个领域多样的语音数据集,每个数据集都配有根据领域语义属性定制的任务表述。使用这个框架,我们在受控推理协议下对最先进的对比学习和下一标记预测音频语言模型进行基准测试。我们的结果揭示了过蕴含、特定领域推理失败以及口音条件语义漂移的一致模式,即使转录质量很高也是如此。这些发现表明,当前的基准测试严重低估了音频语言模型中的推理错误,强调了从音频进行更全面、领域感知的语义推理评估的必要性。在这项工作中,我们研究 ALMs 的逻辑和语义推理。我们的贡献如下: - •我们提出了多种任务表述,旨在测试模型是否在发音变化下保持意义,而不是依赖上下文先验。 - •假设使用 LLaMA 模型生成,并由人工标注者系统性地验证和纠正,确保语义有效性和基于音频证据的接地,包括带口音和陌生的语音模式。 - •我们在统一的推理协议下对对比学习和下一标记预测音频语言模型进行基准测试,揭示了现有基准测试未捕捉的一致过蕴含和口音敏感推理失败。 ## 2 相关工作 音频-语言模型将声学感知与语言建模相结合,以支持广泛的音频理解任务 Ghosh 等人 (2024 (https://arxiv.org/html/2606.11219#bib.bib133)); deshmukh2023。早期方法主要关注对比学习以对齐音频和文本嵌入,从而在检索和分类任务上实现强劲性能 Elizalde 等人 (2023 (https://arxiv.org/html/2606.11219#bib.bib132))。最近的工作探索了将音频理解视为条件文本生成问题的下一标记预测框架,使模型能够执行开放式任务,如字幕生成、对话和问答 deshmukh2024a; deshmukh; deshmukh2023。这些进展大大扩展了 ALMs 的功能范围;然而,评估主要强调任务完成或语言合理性,而不是推断结论的语义有效性 peng2025。随着 ALMs 在生成自由形式回答方面变得更加有能力,对其依赖上下文先验和语言统计而非基于音频信号证据的担忧已经出现 sakshi2024; yang2025a。现有的音频问答和字幕基准测试通常允许多个可接受输出,使得难以区分正确推理和合理幻觉 chu2023。因此,模型可能看起来表现良好,尽管系统性地过度解释或错误归因于音频事件 shi2024; kubis2025。这些局限性激发了对更原则性评估框架的兴趣,这些框架明确测试推理行为而不是表面层面的对齐 kubis2025。音频蕴含被引入作为一项结构化任务,通过确定文本假设是否被音频前提所蕴含、矛盾或未支持来评估音频-语言模型中的演绎推理 deshmukh。通过将音频理解框架化为一个三元推理问题,这项工作为将推理与生成质量分离迈出了重要一步,并揭示了最先进模型中的显著推理缺陷。然而,音频蕴含的关注点有意狭窄:它评估了有限领域集合上的单一推理表述,并没有明确探测推理失败如何跨领域类型、语义现象或语音特征(如口音变化)变化。视觉-语言和基于文本推理的相关工作表明,单任务基准测试可能低估推理错误并掩盖系统失败模式 sadasivan2025。多任务和领域感知评估已被证明对于揭示诸如过度泛化、依赖世界知识以及敏感于虚假相关性等问题至关重要 Olatunji 等人 (2023 (https://arxiv.org/html/2606.11219#bib.bib79)); Sanni 等人 (2025 (https://arxiv.org/html/2606.11219#bib.bib113))。然而,在音频领域,可比的多任务语义推理评估仍不成熟。先前的基准测试没有系统地测试语义约束、对陌生命名实体的鲁棒性,或口音条件意义漂移现象——这些在多样化的现实世界环境中对口语理解尤其相关 wang2025a。 表 1:按推理类型划分的任务分类法及各推理类型的复杂度。 表 2:本工作中使用的四个语音语料库概览。时长在修剪不可用片段后进行测量。详细统计数据和拆分方法见附录 A (https://arxiv.org/html/2606.11219#A1)。 ## 3 音频语言模型的语义推理任务 ### 3.1 问题设置与符号 我们通过要求模型从口语音频中得出结论的任务来研究音频语言模型中的语义推理。每个任务被表述为音频录音与文本假设之间的关系。设 \(a\) 表示作为 *前提* 的音频录音,\(h\) 表示自然语言 *假设*。给定一对 \((a, h)\),模型预测假设与音频中表达的内容之间的语义关系。与每个任务相关的推理类型概述见表 1 (https://arxiv.org/html/2606.11219#S2.T1)。遵循先前关于音频蕴含的工作 deshmukh,我们将推理限制在音频信号本身支持的信息上。模型不允许假设未陈述的事实或依赖超出从口语内容中合理推断的外部世界知识。 ### 3.2 音频蕴含 我们将音频蕴含作为核心语义推理任务。目标是确定假设是否被音频前提支持、矛盾或无法确定。具体来说,每个 \((a, h)\) 对被分配三个标签之一: - •蕴含 (E): 音频提供足够证据支持假设。 - •中性 (N): 音频未提供足够信息来确定假设的真假。 - •矛盾 (C): 音频提供足够证据反驳假设。 形式上,任务定义为 \(f(a, h) \rightarrow y, \quad y \in \{E, N, C\}\)。该任务评估基于口语的演绎语义推理。与基于文本的蕴含不同,音频蕴含要求模型对意义的声学实现进行推理,包括说话者变化和韵律线索,同时保持严格的基于证据的推理。 ### 3.3 合理性与一致性 除了蕴含之外,模型可能会混淆语义兼容性与证据支持。因此,我们引入合理性和一致性任务,进一步探究推理的边界。在 *合理性* 任务中,假设根据常识或话语背景是合理的,但既没有在音频中陈述也没有被暗示。该任务评估模型是否仅基于合理性错误地接受此类假设。在 *一致性* 任务中,假设在语义上与口语内容兼容或不兼容。与蕴含不同,该任务不允许中性选项;相反,它侧重于检测与音频前提的一致或矛盾。这些任务共同评估模型在做出判断时是依赖语义证据还是常识先验。 ### 3.4 口音条件语义漂移与口音约束 口语在说话者和口音之间差异很大。为了评估这种变化下的鲁棒性,我们引入了检查口音条件语义漂移的任务。在这种设置中,音频录音在口音或发音上有所不同,同时保留等效的语义内容,而假设保持不变。该任务评估口音变化是否系统性地改变语义预测。我们进一步引入口音约束任务,以测试当口音在语义上无关时,模型是否适当抑制基于口音的线索。在这里,口音是一个干扰变量,正确的行为要求在不同口音实现中保持不变的语义判断。 ## 4 数据集构建与标注 参见图注 图 1:两个源自 AfriSpeech 的音频推理任务示例。每个示例使用音频前提 \(P\)(显示为波形图标和逐字转录)与假设 \(H_1, H_2,\) 和 \(H_3\)(或更少,取决于任务)配对。对于口语蕴含,假设标注为 *蕴含*、*中性* 或 *矛盾*。对于医学一致性,假设标注为 *一致* 或 *不一致*。 在本节中,我们描述了我们如何策划和标注用于评估的数据。我们不将此步骤视为次要实现细节,而是将仔细的数据集构建视为任何公平基准测试的核心。我们的目标是构建一套捕捉内容和发音的现实世界变化的任务,同时确保每个假设都基于声学证据。表 2 (https://arxiv.org/html/2606.11219#S2.T2) 给出了四个基础语料库的高层概览。关于说话者人口统计、转录质量和拆分方法的更详细描述见附录 A (https://arxiv.org/html/2606.11219#A1)。我们在图 2 (https://arxiv.org/html/2606.11219#S6.F2) 中提供了这些任务的定性示例。 ### 4.1 音频前提 每个数据集都围绕一组音频前提 \(a\) 与一个或多个文本假设的配对构建。语料库涵盖不同领域,包括会话式电话语音、专注于命名实体的朗读语音以及临床对话,以引发各种推理行为。重要的是,录音覆盖了广泛的非洲口音和方言,这意味着模型必须同时应对语言和副语言变化,而不是理想化的实验室语音。我们选择了那些原始标注是通过聆听音频从头创建的数据库,从而避免文本元数据的混杂效应。关于时长、说话者人口统计和口音分布的更多细节见附录 A (https://arxiv.org/html/2606.11219#A1)。 ### 4.2 假设生成 对于每个音频前提,我们创建一小套假设,以探测不同的语义关系:语句是否被音频蕴含、矛盾、仅是常识下的合理,或测试口音引起的漂移。为了扩展这个过程,我们首先使用 LLM 在精心设计的提示下提出候选假设,这些提示禁止未支持否定和多余的世界知识。这些提示在附录 F (https://arxiv.org/html/2606.11219#A6) 中逐字复制。至关重要的是,LLM 提案只是一个起点。 ### 4.3 人工验证与纠正 自动生成后,每个候选假设由经过训练的人工标注者审查。标注者完整聆听音频,并判断所提议的语句是否被录音蕴含、矛盾或未支持。如果假设包含幻觉细节或模糊措辞,标注者会编辑或替换它,以确保最终的假设集在语义上精确且基于听觉。这个人工验证过程是必不可少的。
相似文章
迈向类人交互式语音识别:基于智能体修正与语义评估
本文介绍了 Agentic ASR,一种交互式语音识别框架,通过语义修正和基于推理的编辑,利用多轮优化来减少语义错误。同时,提出了一种新的句子级语义错误率指标以及一个用于基准测试的交互式模拟系统。
重探语义处理的痛点:语言模型的语义推理基准测试
研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。
基于音素的自动语音识别系统中的偏见评估:对IPA转录模型的分析
本文使用音素错误率和新的Soft PER指标,评估了基于音素的自动语音识别系统(特别是WhisperIPA和ZIPA)中的人口统计和口音偏见,揭示了跨语言和群体的持续差异。
使用语法与语义上下文评估汇总(SSAS)的情感预测一致性分析
本论文提出了SSAS(语法与语义上下文评估汇总)框架,旨在通过分层分类和迭代汇总来减少噪声和方差,提高基于大语言模型的情感预测的一致性。在三个行业标准数据集上的实证评估显示,数据质量和企业决策可靠性可提升30%。
多场景长篇语音生成的综合基准评测
Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。