SpeechEQ:在社交感知语音对话模型中评估情商指数的基准

arXiv cs.CL 论文

摘要

SpeechEQ引入了一个用于评估语音语言模型情商的基准和数据集,涵盖2,265个对话中的15个情商子量表。实验表明,当前模型在处理副语言线索时存在困难,表现出依赖文本的捷径以及其他局限性。

arXiv:2606.25990v1 公告类型:新 摘要:随着多模态对话系统越来越多地参与语音互动,它们处理副语言社会线索的能力已成为自然人机通信的关键瓶颈。然而,现有的机器情商评估仅通过孤立的文本或被动声学感知来评估推理能力,忽略了主动、多轮对话所需的复杂跨模态推理。我们引入了\textsc{SpeechEQ},这是一个旨在评估语音语言模型(SLM)社会语言学推理能力的综合框架。该框架包含一个经过验证的数据集,涵盖基于EQ-i 2.0理论的15个情商(EQ)子量表的2,265个对话,以及一个由我们提出的受人类情商评估启发的口语情商(SEQ)分数衡量的多轮评估协议。实验表明,现有的语音情感识别和端到端语音语言模型在理解和应用通过语音传达的副语言线索方面存在局限性。尽管端到端架构优于级联系统,但\textsc{SpeechEQ}揭示了当前多模态模型仍然受到依赖文本的“模态捷径”、对齐引起的“安全陷阱”和“上下文遗忘”的瓶颈,凸显了实现真正情感感知AI的障碍。我们的基准数据集可在https://huggingface.co/datasets/SpeechEQ/SpeechEQ获取,演示页面在https://binomial14.github.io/speecheq-demo/。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:13

# SpeechEQ:在社交感知语音对话模型中基准测试情商指数
来源:https://arxiv.org/html/2606.25990

梁原武¹,陈子晴²,吴彤双³,杨志恒²,沈华¹,⁴
¹纽约大学,²NVIDIA,³卡内基梅隆大学,⁴上海纽约大学
{leo.wu,huashen}@nyu.edu; {virginiac,hucky}@nvidia.com; [email protected]

###### 摘要

随着多模态对话系统越来越多地参与口语交互,其理解副语言社会线索的能力已成为自然人机通信的关键瓶颈。然而,现有机器情商的评估仅通过孤立的文本或被动声学感知进行推理,忽略了主动、多轮对话所需复杂的跨模态推理。我们提出SpeechEQ,一个旨在评估语音语言模型(SLM)社会语言学推理能力的综合框架。该框架包含一个经过验证的数据集,包含2265段对话,涵盖基于EQ-i 2.0理论的15个情商子量表,以及一个受人类情商评估启发的多轮评估协议,通过我们提出的口语情商(SEQ)评分进行衡量。实验表明,现有语音情感识别和端到端语音语言模型在理解和通过语音应用副语言线索方面存在局限性。虽然端到端架构优于级联系统,但SpeechEQ揭示了当前多模态模型仍受限于依赖文本的“模态捷径”、对齐引起的“安全陷阱”和“上下文遗忘”,凸显了实现真正情感感知AI的障碍。我们的基准测试可在https://huggingface.co/datasets/SpeechEQ/SpeechEQ获取,演示页面可在https://binomial14.github.io/speecheq-demo/访问。

## 1 引言

语音语言模型(SLM)的最新进展使得新一代端到端语音代理能够实现流畅(Défossez et al., 2024 (https://arxiv.org/html/2606.25990#bib.bib75); Reddy, 1988 (https://arxiv.org/html/2606.25990#bib.bib76))、实时的交互(Rubenstein et al., 2023 (https://arxiv.org/html/2606.25990#bib.bib83); Zhang et al., 2023 (https://arxiv.org/html/2606.25990#bib.bib84); Chu et al., 2024 (https://arxiv.org/html/2606.25990#bib.bib85); Barrault et al., 2023 (https://arxiv.org/html/2606.25990#bib.bib86); Ye et al., 2025 (https://arxiv.org/html/2606.25990#bib.bib4); Deshmukh et al., 2026 (https://arxiv.org/html/2606.25990#bib.bib2))。这些系统在语义理解、语音转录、回答问题以及生成连贯对话方面表现出色。然而,人类沟通并不仅仅是语义性的(Scherer, 2003 (https://arxiv.org/html/2606.25990#bib.bib51))。在口语互动中,说话的方式——通过韵律、时机和声音强度——往往比说话的内容承载更多的社会意义(Wu and Jain, 2025 (https://arxiv.org/html/2606.25990#bib.bib80); Kim et al., 2023 (https://arxiv.org/html/2606.25990#bib.bib81))。这一差距暴露了一个根本性局限:今天的SLM在语义上流畅,但在社交上肤浅。它们经常产生情感扁平的反应,难以解读或生成表示共情、紧张或意图的副语言线索(Qian et al., 2025 (https://arxiv.org/html/2606.25990#bib.bib82))。因此,即使是非常强大的系统,在决定交互质量的不是事实正确性,而是情商(即EQ)(Salovey and Mayer, 1990 (https://arxiv.org/html/2606.25990#bib.bib35); Elfenbein and Ambady, 2002 (https://arxiv.org/html/2606.25990#bib.bib77))的场景中也会失败。我们认为这一局限源于更深层次的问题:缺乏对语音中多模态情商的严格评估。现有的基准测试要么(i)在纯文本环境下评估情商,要么(ii)将语音视为被动感知任务(例如情感分类),忽略了真实对话中所需的交互性、多轮和跨模态推理。因此,当前模型可以依赖“语义捷径”实现高性能,完全绕过声学推理。为了解决这一空白,我们引入了SpeechEQ,一个用于口语对话中多模态情商的基准测试和评估框架。SpeechEQ建立在三个关键原则之上:(1)基于行为的EQ-i 2.0基础。我们使用EQ-i 2.0框架(Bar-On, 2004 (https://arxiv.org/html/2606.25990#bib.bib31); Wiechorek, 2011 (https://arxiv.org/html/2606.25990#bib.bib78))将情商操作化,构建将心理学构念(如共情、冲动控制)映射到可观察声学行为的场景。(2)语义-声学解耦。我们通过向模型提供共享相同转录但副语言表达不同的响应选项来隔离声学推理。这消除了语义线索,迫使模型依赖纯声学理解。(3)持续情感语用。我们评估具有不断升级情感风险的多轮对话,而不是孤立的语句,测试模型是否能够随时间跟踪和适应不断变化的社会动态。由此产生的数据集包含2265段多轮对话(42.37小时),涵盖15个EQ子量表,通过受控的LLM-TTS流程生成,保证了行为有效性和声学对比性。为了量化性能,我们引入了口语情商(SEQ),这是一个标准化指标,其概念灵感来源于Raven标准推理测验(Raven and others, 1998 (https://arxiv.org/html/2606.25990#bib.bib79); John and Raven, 2003 (https://arxiv.org/html/2606.25990#bib.bib57))。SEQ聚合了跨EQ维度的多轮轨迹准确率,不仅捕捉即时识别,还捕捉持续情感推理。我们证明SEQ与人类判断高度相关,建立了其作为评估语音情商可靠代理的地位。使用SpeechEQ,我们对级联流水线和最先进的端到端SLM进行了基准测试。虽然端到端模型整体表现更好,但我们的分析揭示了三个根本性局限:(i)模态捷径:模型过度依赖文本,当意义仅由声学承载时失败。(ii)情感扁平化:对齐机制使模型偏向安全、低唤醒度的语调,抑制了必要的情感表达。(iii)上下文遗忘:在多轮交互中性能下降,表明长期情感跟踪能力薄弱。这些发现表明,当前SLM并非真正推理情感——它们只是在有利条件下近似情感。总体而言,贡献有三方面:
- • **一个基于副语言的基准测试**:我们引入了SpeechEQ,一个基于15个EQ-i 2.0维度的多轮语音基准测试。通过解耦文本和韵律,它隔离了声学信号,实现了对副语言推理的严格评估。
- • **一个全面的评估框架和指标**:我们提出了一个统一的评估协议,适用于级联和端到端模型,以及口语情商(SEQ)——一个用于测量多轮交互中情商的轨迹级别指标。
- • **实证洞见**:我们对最先进的模型进行了基准测试,并识别出三种失败模式:模态捷径、情感扁平化和上下文遗忘,揭示了当前语音语言系统的关键局限。

## 2 SpeechEQ:评估语音语言模型的情商

本节详细介绍了SpeechEQ(一个集成评估框架和数据集)的开发。我们首先概述动机和设计原理,然后详细描述生成流程和验证过程。最后,我们形式化框架的评估协议,并引入口语情商(SEQ),一个用于量化SLM情商的标准化指标。

参见图注 **图1**:SpeechEQ数据集构建流程概述。

### 2.1 动机与设计原理

**可归因行为设计**。我们的首要目标有两个:超越传统语音情感识别中的被动分类(Cowie et al., 2001 (https://arxiv.org/html/2606.25990#bib.bib71); Burkhardt, 2000 (https://arxiv.org/html/2606.25990#bib.bib70); Schuller, 2018 (https://arxiv.org/html/2606.25990#bib.bib44)),在主动社交环境中严格评估SLM,并确保社会共鸣反应能够在音频波形中明确隔离。为了实现这种可归因的行为设计,我们将数据集建立在EQ-i 2.0框架之上(Bar-On, 2004 (https://arxiv.org/html/2606.25990#bib.bib31); Wiechorek, 2011 (https://arxiv.org/html/2606.25990#bib.bib78))。EQ-i 2.0是一个特质行为模型,将社会功能操作化为可测量的子量表(更多细节见附录A (https://arxiv.org/html/2606.25990#A1))。这种行为焦点提供了确切的机制,将复杂的心理学构念直接转化为不同的、可测量的声学特征。

**语调变化设计**。为了减轻词汇偏差(Chen et al., 2026 (https://arxiv.org/html/2606.25990#bib.bib68); Wang et al., 2020 (https://arxiv.org/html/2606.25990#bib.bib69))并严格评估声学情商,我们将任务设计为在两个共享相同转录的音频响应之间进行强制选择。通过中和文本模态,我们消除了语义差异,迫使系统评估微妙的副语言线索,以确定上下文共鸣的响应。

**多轮对话弧**。为了捕捉超越单次话语的情商,我们评估模型如何在持续交互中跟踪线索。我们将场景构建为人类催化剂和SLM(作为测试主体)之间的三轮交换对话。在建立情感基线的初始交换之后,系统必须通过选择第二和第三轮交换中上下文适当的声学响应来应对不断升级的社交压力。这种设计有效地测试了模型在演变的对话轨迹中进行复杂社会语言学语用的能力。

### 2.2 数据生成

我们开发了一个自动化的、由LLM驱动的生成流程(图1 (https://arxiv.org/html/2606.25990#S2.F1))来执行设计原理。我们强调场景和语调指令生成,完整的五个阶段技术细节和提示词在附录B (https://arxiv.org/html/2606.25990#A2)中。

**场景生成与角色矩阵**。我们在EQ-i 2.0框架下设计了一个高度约束的场景矩阵。每个场景在三个参数的交集处生成:特定的EQ-i 2.0子量表(例如人际关系、共情)、情境效价(正面、负面或冲突)和现实世界场景(例如工作场所、医疗、教育)。关键是,为了确保强制选择评估的严谨性,流程会生成与目标EQ量表相对应的不同“社交缺陷角色”,例如一个无法验证悲伤的“有毒乐观者”。这确保了评估的模型是针对复杂的社会语言学崩溃,而非一般的对抗性行为进行测试。

**语调生成与对比过滤**。语调生成阶段弥合了抽象心理学角色与中性文本上的原始音频合成之间的差距。我们提示LLM生成基于物理的声学描述符,将生成的三个角色(一个上下文适当的响应和两个失调的干扰项)转化为明确的发声指令。为了对抗生成模型的默认安全对齐,我们应用一个过滤步骤,拒绝诸如“礼貌”或“平静”等最小化描述符,强制生成极端的、基于物理的声学标记。最后,一个自动过滤阶段选择两个最明显对比的指令,通过`gpt-4o-mini-tts-2025-03-20`进行合成,为语音候选项产生细微不同的副语言变体。

### 2.3 数据验证

为了确保SpeechEQ的质量,我们采用了两阶段验证流程。第一阶段(自动)验证场景一致性和声学区分度,第二阶段(人工)评估自然性和感知有效性。

**表1**:语义验证结果。

**语义与逻辑验证**。我们首先进行“先知”文本评估,向模型提供转录和明确的语调指令而非音频(例如,“快速节奏,讽刺性的愉快”)。模型达到近乎完美的准确率(表1 (https://arxiv.org/html/2606.25990#S2.T1)),确认了场景逻辑一致且明确对齐了15个EQ-i 2.0维度(Bar-On, 2004 (https://arxiv.org/html/2606.25990#bib.bib31); Wiechorek, 2011 (https://arxiv.org/html/2606.25990#bib.bib78))(完整分类见附录A (https://arxiv.org/html/2606.25990#A1))。这一结果将SpeechEQ的挑战隔离为模态差距,例如,从音频中理解副语言,而非场景设计的模糊性。

**声学方差验证**。为了确保有意义的副语言对比,我们使用librosa量化每一对评估样本(第4轮和第6轮)中共鸣与非共鸣剪辑之间的声学差异。我们提取六个维度:平均音高、过零率(语速代理)、频谱质心、RMS能量、平均MFCC和时长。我们计算一个综合对比分数(最高8分),其中音高和语速差距各贡献最多2分,其余四项各贡献最多1分。得分低于4的配对会触发最多三次TTS重新生成尝试;仍然失败的示例将被丢弃。

**人类专家验证**。我们进一步通过专家标注评估感知有效性。我们抽样了75个场景(每个EQ子量表5个),并在五个维度上评估它们:生成质量(文本和音频)、EQ相关性(文本和音频)和答案正确性(副语言准确性)。评估结果在表2 (https://arxiv.org/html/2606.25990#S2.T2)中,这些指标的正式定义和文献基础在附录C (https://arxiv.org/html/2606.25990#A3)的表5中。两位专家标注者在迭代协调后达到较强一致性(Cohen's Kappa κ=0.617)。任何在单一标准上失败的场景都会被移除,确保高质量、社会有效的数据。

**数据统计**。最终数据集共包含2265段对话,在15个EQ-i 2.0子量表上完美平衡,总计42.37小时的音频。一段对话的平均时长为67.35秒(σ=22.29),为评估持续情感跟踪提供了充足的时间上下文。

**表2**:人类专家数据验证结果。

### 2.4 情商评估协议

**两轮选择过程**。我们通过每段对话第4轮和第6轮的两轮强制选择任务评估模型。在第一轮中,模型接收场景上下文和初始历史(第1-3轮音频),并必须为第4轮选择社会共鸣的音频。在第二轮中,上下文窗口动态更新为所选第4轮响应和随后的第5轮话语,要求模型选择正确的第6轮响应。这种顺序依赖性既测试了即时情感识别,也测试了持续的对话跟踪。技术提示词细节在附录D (https://arxiv.org/html/2606.25990#A4)中。

**评估指标**。我们报告模型在第一个评估轮次的选择准确率(Acc

相似文章

SpeechDx:临床语音AI的多任务基准

arXiv cs.AI

SpeechDx 是一个大规模临床语音AI基准,涵盖12个数据集和27个任务,覆盖多种健康状况,并按语音生成阶段进行结构化。它评估了12种最先进的音频编码器,结果表明当前模型在临床语音领域无法可靠地泛化。

社交智能基准

Reddit r/singularity

本文提出了一个新的基准,旨在评估AI系统的社交智能,衡量其理解和响应社交线索与互动的能力。

EVA-Bench:评估语音代理的新型端到端框架

Hugging Face Daily Papers

EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。