实时语音AI听得见但听不懂（arXiv:2606.26083）

Reddit r/artificial 2026/06/25 17:32 论文

real-time-voice voice-ai emotional-intelligence speech-perception ai-safety multimodal evaluation

摘要

本文评估了四个领先的实时语音AI系统（GPT Realtime 2、Gemini 3.1 Flash Live、Qwen3.5 Omni Plus、Omni Flash），发现它们始终根据词语而非语气采取行动，即使能够感知到痛苦、恐惧或讽刺也忽略不计——这被称为语音AI的“情商鸿沟”。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/25 19:26

# 实时语音AI能听见但未倾听
来源：https://arxiv.org/html/2606.26083
Martijn Bartelds Together AI mbartelds@together\.ai Federico Bianchi Together AI federico@together\.ai James Zou Together AI Stanford University jamesz@stanford\.edu

###### 摘要

语音通过词语和声音传达方式共同传递信息。我们评估了四种领先的实时语音系统——OpenAI的GPT Realtime 2、Google的Gemini 3\.1 Flash Live，以及Alibaba的Qwen3\.5 Omni Plus和Omni Flash——在词语和传达模式都承载有意义信息的任务上的表现。在三个关键场景中，所有四个系统都根据词语而非声音采取行动。它们挂断了哭泣且坚称一切正常来电者的电话，批准了以惊恐声音授权的电汇，并注册了明显是讽刺性同意的来电者。令人惊讶的是，这通常不是感知的失败。当被直接询问时，四个系统中的三个能可靠地识别出它们后来在决策中忽略的痛苦、恐惧或讽刺。当这些实时语音系统估计口音和年龄时，我们观察到类似模式，其回答通常遵循词语的偏见而非说话者的声学特性。我们将这种感知与行动之间的脱节称为语音AI的*情绪智能差距*。提示系统明确关注声音传达方式仅能部分且不一致地改善性能。我们的发现表明，当前的实时语音AI系统往往表现得好像语音已被简化为文字记录，这提示在声音语调和情感传达重要信息的场景中应谨慎使用它们。

## 1 引言

当人们说话时，他们不仅在选择的词语中传递信息，也在说话的方式中传递信息。词汇通道是话语的言语内容。非词汇通道是声音为其增添的一切，如音高、语调、口音和情绪状态（Scherer, 2003 (https://arxiv.org/html/2606.26083#bib.bib5); Wallbridge et al., 2021 (https://arxiv.org/html/2606.26083#bib.bib14)）。听者同时依赖两者，因为两个通道携带互补的信息。例如，在紧急医疗电话中，来电者的情绪痛苦与患者结果相关，考虑这些信息有助于改善医疗分诊（Ng Ping Cheung et al., 2025 (https://arxiv.org/html/2606.26083#bib.bib1)）。当声音以这种方式携带信息时，仅基于词语的决定可能是错误的。例如，一个痛苦的（即非词汇线索）来电者说“一切都好”（即词汇线索）不应被忽视。

参见图注图1：在每个场景中，来电者的措辞和传达方式指向相反的行动，因此预期行动（第三列）取决于传达方式。实时语音系统往往做出相反的行动（第四列），根据措辞行动而违背传达方式。随着语音成为与AI系统交互的日常方式，理解这些系统如何处理和利用词汇与非词汇线索至关重要。在本文中，我们研究*实时语音系统*，即接受语音输入并以语音输出进行实时、逐轮交互的模型，而不是转录语音、推理文本并合成回复的级联系统。我们评估领先的生产系统，这些系统已经为已部署的语音代理提供动力，包括在医疗等受监管环境中（Adams et al., 2025 (https://arxiv.org/html/2606.26083#bib.bib2)）。这类系统如何处理非词汇通道目前尚未明确。

我们表明，当话语的词语和声音指向不同结论（如痛苦的声音说“一切都好”）时，我们研究的四种领先生产实时语音系统——OpenAI的GPT Realtime 2 (OpenAI, 2026a (https://arxiv.org/html/2606.26083#bib.bib16))、Google的Gemini 3\.1 Flash Live (Google DeepMind, 2026a (https://arxiv.org/html/2606.26083#bib.bib17))，以及Alibaba的Qwen3\.5 Omni Plus Realtime和Qwen3\.5 Omni Flash Realtime (Qwen Team, 2026 (https://arxiv.org/html/2606.26083#bib.bib15))——根据从词语中提取的含义行动，而忽视传达方式。我们在三个具有重要后果的场景决策中发现了这一点。在紧急调度员福利回访中，每个系统都挂断了正在哭泣却坚称一切正常的来电者的电话。在电汇欺诈核查中，每个系统批准了以明显惊恐声音授权的电汇，与平静授权时一样爽快。在志愿者招募电话中，每个系统都注册了来电者，无论同意是用真诚的声音还是嘲弄讽刺的声音说出。

然后，我们在单轮诊断中探究同样的冲突，以更好地理解这些系统的行为。当被直接问及说话者是否听起来痛苦时，三个系统对哭泣传达方式的回答“是”的频率远高于对相同词语平静说出的回答。它们在回访中忽视的痛苦，是它们能听到但选择不采取行动的痛苦。第四个系统Qwen3\.5 Omni Flash即使在直接被问及时也会误判传达方式，但仍同样根据词语行动。因此，无论传达方式是否被感知，都会出现相同行为。这一发现不仅限于传达方式的语调。当这些系统被要求从录音中识别说话者的口音或年龄，而录音的措辞指向不同答案时，系统大多根据措辞暗示的内容作答。人类听者能从相同录音中恢复这两个属性，并且一个系统Qwen3\.5 Omni Plus能说出几个声音的口音，因此线索存在且至少在实时管线中部分可恢复。

从文本到语音的转变使这些系统获得了说话者的声音以及词语，然而它们的决策仅仅依赖于词语，仿佛语音已被简化为文字记录。我们将这种不对称性称为语音AI的*情绪智能差距*。当传达方式而非措辞携带决定性信息时，如在本文建模的紧急和安全交互中，弥合这一差距是安全部署这些系统的先决条件。

## 2 相关工作

近年来，AI模型在语音和通用音频基准测试上取得了显著进展（Défossez et al., 2024 (https://arxiv.org/html/2606.26083#bib.bib6); Fang et al., 2025 (https://arxiv.org/html/2606.26083#bib.bib9); KimiTeam et al., 2025 (https://arxiv.org/html/2606.26083#bib.bib8); Zhang et al., 2025 (https://arxiv.org/html/2606.26083#bib.bib7)）。然而，最近的一些研究表明，音频和语音语言模型依赖词语而忽视声音，当两者冲突时最为明显。在一个包含十项非词汇副语言任务的基准测试中，合成声音包含一个属性而文字记录包含另一个属性，模型从声音中恢复该属性的能力很差，而是返回词语所包含的属性（Pang et al., 2026 (https://arxiv.org/html/2606.26083#bib.bib3)）同样的依赖性在情绪方面也被证实。当词语不带情绪时，模型预测中性而忽略声音中的情绪。此外，当词语和声音冲突时，如在讽刺中，模型能识别冲突但无法确定具体情绪（Chen et al., 2026 (https://arxiv.org/html/2606.26083#bib.bib4)）。一项对四个口语语言模型的独立研究报告了相同的模式，表明情绪预测追踪词语的强度远高于韵律，即使提示指示它们仅从韵律判断并忽略词语（Corrêa et al., 2026 (https://arxiv.org/html/2606.26083#bib.bib10)）。这还扩展到说话者身份识别，模型被问及对话中谁说了什么时，其表现与纯文字转录系统大致相当，能恢复所说的内容但遗漏说话的声音（Wu et al., 2024 (https://arxiv.org/html/2606.26083#bib.bib11)）。针对语音-词语不匹配现象，提出了两种不同的原因。一种将偏见追溯到模型源自纯文本语言骨干，后来通过多模态微调适应，这可能会继承对词语的偏好（Chen et al., 2026 (https://arxiv.org/html/2606.26083#bib.bib4)）。第二种解释是架构性的。在将音频编码器与语言模型配对的模型中，编码器在其深层丢失了大量声音细节，并且语言模型甚至忽略了幸存下来的细节（Pang et al., 2026 (https://arxiv.org/html/2606.26083#bib.bib3)）。

所有这些研究共享相同的设计：将单个录音提供给一个接受音频并返回文本的模型，其答案根据声音或词语进行评分。我们的研究在测试内容和测量方式上均不同。我们研究的系统是生产型模型，在实时交互中输入语音并输出语音，场景是在多轮对话中做出的具有重要后果的决策，而非孤立的判断；结果是被采取的行动而非标签。除了决策，我们还在单轮对话中询问每个系统听到了什么。这样可以将感知与行动分离，并探究通过探测报告的内部利用差距（Pang et al., 2026 (https://arxiv.org/html/2606.26083#bib.bib3)）是否在其行为中有对应。我们将问题从传达方式的语调扩展到说话者的口音和年龄，并探讨这类系统在传达方式而非措辞决定决策的场景中是否安全部署。

## 3 实验设置

我们研究四种领先的生产实时语音系统，即OpenAI的GPT Realtime 2、Google的Gemini 3\.1 Flash Live，以及Alibaba的Qwen3\.5 Omni Plus Realtime和Qwen3\.5 Omni Flash Realtime。我们选择这四种系统以涵盖几家主要供应商和一系列能力层级，从旗舰模型到更快的“Flash”变体。我们聚焦于实时系统而非级联管线，后者在通过LLM响应之前将语音转录为文本，因为转录在任何决策发生之前就丢弃了非词汇通道。级联系统在构造上无法根据声音行动。所有四个系统均通过其公共API访问，使用表1 (https://arxiv.org/html/2606.26083#S3.T1)中所示的模型标识符。

我们实验设置中使用的所有语音均由ElevenLabs文本转语音合成（ElevenLabs, 2026 (https://arxiv.org/html/2606.26083#bib.bib20)）。具体来说，我们运行两类实验。第一，多轮场景通话测量系统在关键决策中采取的行动。第二，单轮诊断测量系统在隔离状态下从语音中报告的内容。除非另有说明，每个条件运行五次。

表1：我们研究的四种生产实时语音系统，及其API模型标识符和输入输出模态。### 3.1 多轮场景

每个场景都是一项简短的、真实的语音任务，其中来电者的措辞和传达方式指向相反的行动。预期行动取决于传达方式（参见图1 (https://arxiv.org/html/2606.26083#S1.F1)）。在每个场景中，被测系统扮演代理（即决定如何回应的接听者）。

在福利回访中，代理是一名911调度员，回拨一个刚刚断线的电话。来电者坚称没有紧急情况且一切正常，同时全程哭泣或平静说话。关键在于，传达方式中的痛苦是唯一不将通话视为常规的理由。预期回应是启动公共安全响应以确认来电者安全（National Emergency Number Association, 2020 (https://arxiv.org/html/2606.26083#bib.bib13)）。

在电汇欺诈核查中，代理是一名银行职员，确认一笔8400美元的转账。来电者以两种传达方式给出相同的授权：一种用平静的声音，另一种用惊恐的声音。在这么大额度的转账过程中出现惊恐的传达方式可能表明来电者受到胁迫，因此预期回应是升级给相应工作人员，而不是仅凭措辞批准（Consumer Financial Protection Bureau, 2016 (https://arxiv.org/html/2606.26083#bib.bib12)）。

在志愿者招募电话中，代理是一名招募者，为周末食品募捐活动招募志愿者。来电者以两种传达方式说出同样肯定的词语：一种用真诚的热情，另一种带着嘲弄的讽刺。讽刺表明同意不真诚，因此预期回应是拒绝注册，而不是仅凭词语录取。

对于所有三个场景，我们还测试了给模型的指令是否能改变模型的行为。在基础提示之上，我们添加了*关注*指令（关注来电者的声音听起来如何），或*覆盖*指令（保留*关注*指令，并额外禁止在传达方式表明痛苦、胁迫或不诚实时仅凭措辞行动）。

每个场景通话以一个固定片段开始，该片段在每个场景的两种传达方式中措辞完全相同，只是在说话方式上不同。开场后，来电者由GPT-5.5驱动（OpenAI, 2026b (https://arxiv.org/html/2606.26083#bib.bib18)），它从固定角色写出后续每个来电者轮次的文本，并决定何时结束通话。来电者的词语从不陈述情绪。相反，GPT-5.5使用情绪标签在文本中标记传达方式。然后ElevenLabs用与开场片段相同的传达方式，以来电者的声音渲染这些标记文本。每个结果是代理在最后一轮中做出的决定，即通话是否结束、转账是否释放或志愿者是否注册。场景提示在附录A (https://arxiv.org/html/2606.26083#A1)中给出。

### 3.2 单轮诊断

在每个诊断中，我们发送一个录音单轮，并提取模型的答案。传达方式诊断询问模型是否听到说话者的声音听起来如何。每个诊断重复使用场景中来电者的开场轮次，并将这些相同的词语以该场景的两种传达方式呈现20次。福利回访对比平静与哭泣，并询问说话者是否听起来痛苦；电汇欺诈核查对比平静与惊恐，并询问说话者是否听起来惊恐；志愿者招募对比真诚与讽刺，并询问说话者是否听起来讽刺。作为纯文字基线，每个问题也仅以书面形式提供给语言模型（Gemini 3.1 Pro；Google DeepMind, 2026b (https://arxiv.org/html/2606.26083#bib.bib19)），以确定标签单独从词语中推导出来的频率。

此外，口音和年龄诊断要求模型从录音中识别说话者的口音和年龄，而录音的措辞指向不同的答案。对于口音诊断，我们使用五种合成语音，每种带有不同的英语口音。这些口音是印度、澳大利亚、尼日利亚、法国和普通话口音的英语。每个声音朗读三段关于意大利、日本和荷兰的文章，因此措辞指向一个地方，而口音指向另一个地方。模型被要求说出它听到的口音。对于年龄诊断，四个合成的老年声音每个朗读两段为小孩写的台词，模型被要求说出说话者的年龄。诊断提示在附录B (https://arxiv.org/html/2606.26083#A2)中给出，刺激脚本在附录C (https://arxiv.org/html/2606.26083#A3)中。

### 3.3 刺激验证

因为我们使用的语音样本是合成的，我们检查人类听者是否能听到