EmoS:面向细粒度流式情感理解的高保真多模态基准
摘要
本文介绍了 EmoS,这是一个专为细粒度流式情感理解设计的高保真多模态基准,旨在解决现有数据集中存在的生态效度不足和标注可靠性低的问题。
arXiv:2605.08847v1 公告类型:新论文
摘要:在当今高压且人口老龄化的社会背景下,能够共情支持的大规模情感模型的需求比以往任何时候都更为迫切。然而,现有基准未能同时实现生态效度、信号清晰度和可靠的细粒度标注。我们引入了 EmoS,这是一个高保真的双语基准,旨在通过将严格筛选的静态切片与动态流式独白子集相结合,来解决现有数据集中存在的生态效度不足和噪声问题。得益于严谨的双层人工标注流程,EmoS 提供了可信的真实标签,能够捕捉情感的连续演变过程。实证结果表明,在 EmoS 上微调 MLLM(多模态大语言模型)相较于零样本基线取得了显著的性能提升,为未来情感识别模型和共情模型的训练与评估奠定了基础。数据集和代码已公开,访问地址为:https://github.com/NLP2CT/EmoS。
查看缓存全文
缓存时间: 2026/05/12 07:02
# EmoS:用于细粒度流式情感理解的高保真多模态基准
**来源:** https://arxiv.org/html/2605.08847
**作者:** Pengze Guo${}^{1}$${}^{\dagger}$,Jingxi Liang${}^{1}$${}^{\dagger}$,Zhiwen Xie${}^{1,2}$,Qifeng Wang${}^{1}$,Derek F. Wong${}^{1}$${}^{*}$
${}^{1}$澳门大学计算机与信息科学系 NLP2CT 实验室
${}^{2}$华中师范大学计算机学院
nlp2ct\{pengze,jingxi,qifeng\}@gmail.com, [email protected]
[email protected]
**摘要**
在当今高压、老龄化的社会背景下,能够提供共情支持的大规模情感模型的需求比以往任何时候都更为紧迫。然而,现有的基准测试无法同时实现生态效度、信号清晰度和可靠的细粒度标注。我们引入了 **EmoS**,这是一个高保真双语基准测试,旨在通过结合经过严格过滤的静态切片和动态的流式独白(Streaming Monologue)子集,解决现有数据集在生态效度和噪声方面的局限性。依托于严格的双层人工标注流程,EmoS 提供了可信的真实标签(ground truth),能够捕捉连续的情感演变过程。实证结果表明,在 EmoS 上对多模态大语言模型(MLLMs)进行微调,相比零样本(zero-shot)基线取得了显著的性能提升,为未来情感识别模型和共情模型的训练与评估奠定了基础。数据集和代码已公开在 https://github.com/NLP2CT/EmoS。
EmoS:用于细粒度流式情感理解的高保真多模态基准
Pengze Guo${}^{1}$${}^{\dagger}$(同等贡献),Jingxi Liang${}^{1}$${}^{\dagger}$,Zhiwen Xie${}^{1,2}$,Qifeng Wang${}^{1}$,Derek F. Wong${}^{1}$${}^{*}$(通讯作者)
${}^{1}$澳门大学计算机与信息科学系 NLP2CT 实验室
${}^{2}$华中师范大学计算机学院
nlp2ct\{pengze,jingxi,qifeng\}@gmail.com, [email protected], [email protected]
## 1. 引言
随着人工智能(AI)的飞速发展,社会对 AI 代理的期望日益增高,希望它们不仅能执行简单任务,还能作为具有情感智能的合作伙伴(Cheng et al., 2024; Shi et al., 2025; Liu et al., 2022a)。在心理咨询和养老护理等高压环境中,AI 系统不仅要识别静态情绪,还必须在使用者状态恶化之前主动干预。然而,这类共情模型的发展目前受限于底层数据的质量。
我们在多模态情感识别(MER)领域发现了一个关键的“数据质量三元悖论”,即现有基准难以同时实现生态效度、信号清晰度和可靠的标注。以往的数据集往往无法满足这些不断演变的需求。早期的实验室控制数据集,如 IEMOCAP(Busso et al., 2008)和 DAIC-WOZ(Gratch et al., 2014),虽然数据干净,但缺乏真实互动中的自发性。相反,广泛使用的“野生环境”(in-the-wild)数据集,如 MELD(Poria et al., 2019)和 CH-SIMS v2(Liu et al., 2022a),虽然提供了丰富的上下文,但其真实标签却因不可靠和粗粒度而从根本上受损。除了简单的模态噪声外,MELD 还严重依赖上下文且存在歧义,而 CH-SIMS v2 仅限于情感极性而非具体情绪,两者均不足以支持细粒度情感识别任务。更关键的是,大多数数据集将连续对话碎片化为孤立的语句级片段。这种碎片化切断了情感演变的时间线,使得模型无法学习动态轨迹,例如从沮丧逐渐升级为愤怒的过程。虽然近期由大语言模型(LLMs)生成的合成数据集(Cheng et al., 2024; Lian et al., 2025)试图扩大数据规模,但它们往往存在标签幻觉问题,损害了真实标签的可信度。
> **图1:** 当前短语句多模态数据集局限性的图示。
现有工作的局限性凸显了构建高质量 MER 基准的必要性。一个理想的 MER 基准需要在文本、声学和视觉信号之间具有高保真的多模态对齐。至关重要的是,它必须提供细粒度情感标签(例如,喜悦、愤怒),而不是粗略的情感极性。此外,它应该支持长对话上的连续时间建模,超越孤立的语句级分类。为此,我们引入了 **EmoS**,这是一个涵盖 9,403 个静态样本和 2 小时流式独白的高保真双语基准。EmoS 通过严格的双层标注流程构建(Basic-7(Ekman, 1992)和 GoEmotions-28(Demszky et al., 2020)),并经 Dawid-Skene 算法(Dawid and Skene, 1979)验证。EmoS 整合了经过严格过滤的 MELD-Core、细粒度的 CH-SIMS v2 以及一个新的流式子集,以捕捉连续的情感演变。
我们在 EmoS 上对最先进的 MLLMs(例如 Gemini-3, Qwen-3)进行了基准测试。结果表明,零样本性能有限,Gemini-3 由于保守的中性偏见,准确率仅约为 61%。相反,任务自适应微调至关重要:对 Qwen-3 进行微调将准确率提升至 70.3%,极大地提高了对厌恶等长尾情感的召回率(F1 从 0.30 提升至 0.75)。此外,具有超长上下文窗口的模型对叙事流程表现出极高的敏感性,成功预测了流式子集中 82% 的情感转折点。
总结而言,我们的贡献主要有三点:
* 我们提出了 EmoS,这是一个经过严格清洗、人工标注的基准(N=9,403 个静态样本 + 2 小时流式数据),解决了模态噪声问题并引入了新颖的流式子集。
* 我们建立了一个高标准的双层标注协议,结合基础类别和细粒度类别,并辅以严格的标注者风格分析。
* 我们提供了最先进的 MLLMs 的全面基准测试,表明在高质量数据上进行微调是掌握动态情感轨迹的前提。
## 2. 相关工作
多模态情感识别(MER)的研究已从实验室环境发展到野生数据和合成数据,但完美的基准仍然难以寻觅。早期的实验室控制数据集如 IEMOCAP(Busso et al., 2008)提供干净的信号,但由于 scripted interactions(脚本化互动)而缺乏生态效度(Dhall et al., 2013)。为了解决这个问题,引入了如 MELD(Poria et al., 2019)和 CMU-MOSEI(Zadeh et al., 2018)等野生环境数据集;然而,它们往往受到严重的模态噪声(例如,罐头笑声、镜头转换)和碎片化时间线的困扰,这破坏了情感动态的建模。最近,LLM 生成的数据集(Cheng et al., 2024)试图扩大标注规模,但经常遭受标签幻觉和缺乏严格人工验证的问题(Ji et al., 2023)。因此,该领域面临“数据质量三元悖论”:现有基准要么缺乏生态效度,要么噪声过大,要么不可靠。EmoS 旨在通过严格过滤以确保信号清晰度,并引入经人工验证的流式独白来解决这一悖论。受篇幅限制,我们在附录 H 中提供了对现有数据集及其具体局限性的全面回顾。
> **图2:** 我们数据集的基本信息和处理流程
## 3. 数据集构建
在多模态情感识别(MER)的背景下,主要目标是从语音、面部表情和文本等多模态数据中识别和理解情感表达。传统的 MER 任务侧重于从简短、静态的数据切片(例如,单个句子或片段)中识别情感,而不考虑情感的时间演变。然而,在“流式 MER”中,任务演变为包含时间动态,模型必须识别和跟踪连续数据流(例如,独白、对话)中的情感转换。为了满足 MER 任务的需求,我们参考图 2 所示的标注流程提出了 EmoS 数据集,该图说明了数据集的基本信息和处理程序。
### 3.1 数据收集
我们的数据集 EmoS 由三个独立的子集组成。它整合了来自 MELD(英语)和 CH-SIMS v2(中文)的精心选段,并进一步补充了我们新收集的长篇独白子集。
原始 MELD 数据集(Poria et al., 2019)源自情景喜剧《老友记》。它包含大量非常短的语句(例如,“是的”、“好的”),并且严重受到罐头笑声的污染。虽然 MELD 适合建模对话上下文,但这些特性为细粒度情感识别引入了大量噪声,因为这些语句往往缺乏独立的声学或视觉线索。为了解决这个问题,我们对 MELD 进行了严格过滤,移除了短于一秒的片段,以及由笑声轨道或严重视觉遮挡(例如,未能保持对说话者关注的镜头转换)导致的低信噪比片段。这产生了 5,000 个高质量样本的核心子集,称为 **MELD-Core**。
同时,我们纳入了完整的 CH-SIMS v2 数据集(Liu et al., 2022a),该数据集提供了高质量的多模态对齐,并对部分样本应用了视频裁剪以捕捉说话者的视觉信息。这确保了视觉焦点保持在说话者的面部表情上,为中文多模态情感分析提供了强大的基准。
现有数据集通常依赖句子级切片或短的多方对话片段,这破坏了情感演变的时间连续性。为了捕捉建立、过渡和高潮等动态过程,我们从电影和电视剧(例如,《海上钢琴师》和《黑冰》)中收集了 50 段连续独白(总共约 2 小时)。随后,我们将它们解析为大约 700 个连续句子,保留了建模情感动态所需的时间连贯性。
### 3.2 数据标注与质量分析
鉴于当前多模态大语言模型在零样本情感识别方面的局限性(我们在试点集上测试了 Gemini-3 和 Qwen-3-omni-flash,两者在 Basic-7 分类任务上的准确率均低于 70%),我们采用了严格的人工标注流程。本节详细介绍了我们的两级分类法、质量控制机制以及对标注者主观性的建模。
#### 3.2.1 标注协议与分类法
为了平衡标准化和语义丰富性,我们的标注框架在两个粒度上运行:
**Basic-7(离散类别)**。我们遵循经典的 Ekman 式七类分类法(愤怒、喜悦、悲伤、恐惧、厌恶、惊讶、中性)。该方案在多模态研究中广泛使用,为评估基本判别能力提供了稳健的基准(Ekman, 1992)。
**GoEmotions-28(细粒度多标签)**。为了捕捉细微的情感区别(例如,钦佩、懊悔、困惑),我们采用了来自 GoEmotions 的 28 类细粒度分类法(Demszky et al., 2020)。这使得能够进一步评估模型处理语义邻近性和复杂情感理解的能力。
每个样本由三名独立标注者进行标注。对于 CH-SIMS v2 和流式子集,标注者提供一个 Basic-7 单标签和多个 GoEmotions 多标签。对于 MELD,我们整合了原始的基本标签,额外收集了 GoEmotions 多标签标注,并执行了跨分类法的一致性检查。
#### 3.2.2 标签聚合与质量控制
为了减少个人偏见并估计真实标签(Ground Truth)的可靠性(Whitehill et al., 2009; Raykar et al., 2010),我们实施了多阶段聚合和清洗流程。
**Basic-7 聚合(Dawid–Skene)**。对于单标签任务,我们使用 Dawid–Skene (DS) 算法(Dawid and Skene, 1979)来估计推断标签 $y_{ds}$ 及其后验置信度 $c_{ds}$。具体来说,DS 算法采用期望最大化(EM)框架,联合估计潜在类别先验和每个标注者的混淆矩阵(可靠性)。收敛后,算法为每个样本 $i$ 在类别集合 $K$ 上产生后验概率分布。置信度分数 $c_{ds}^{(i)}$ 定义为此后验分布的最大值:
$$ c_{ds}^{(i)} = \max_{k \in K} P(y_i = k \mid x_i^{(1)}, x_i^{(2)}, x_i^{(3)}) \quad (1) $$
其中 $x_i^{(m)}$ 表示第 $m$ 位标注者提供的标签。该指标反映了在加权不同标注者的可靠性后,模型对推断标签的确定性。基于 $c_{ds}$ 和标注者一致性,我们将数据集分为三个质量层级(统计数据见表 1):
* **高质量(76.6%)**:所有三名标注者一致(`unique_labels=1`)或 $c_{ds} \geq 0.9$。
* **中等质量(14.0%)**:$0.8 \leq c_{ds} < 0.9$,通常涉及轻微模糊的边界(例如,悲伤与中性之间)。
* **低质量/困难(9.4%)**:$c_{ds} < 0.8$,通常三名标注者赋予不同的标签。这些样本反映了人类情感感知中固有的主观性和不确定性。
**表 1:** CH-SIMS v2 basic-7 类别的质量层级和唯一标签计数
| 指标 | 前 2,499 样本 | 后 1,904 样本 | 总计 |
| :--- | :--- | :--- | :--- |
| **N** | 2,499 | 1,904 | 4,403 |
| **高 (≥0.9)** | 1,702 | 1,670 | 3,372 |
| **中 (0.8–0.9)** | 496 | 122 | 618 |
| **低 (<0.8)** | 301 | 112 | 413 |
| **unique = 1** | 1,097 | 904 | 2,001 |
| **unique = 2** | 1,119 | 917 | 2,036 |
| **unique = 3** | 283 | 83 | 366 |
**GoEmotions 软标签建模**。鉴于细粒度情感的多义性,我们避免硬标签投票,而是将真实标签建模为软概率分布。对于 $K=29$ 个类别中的每个类别 $k$,我们计算 $p_k = \frac{n_k}{3}, \quad p_k \in \{0, 0.33, 0.66, 1.0\}$,其中 $n_k$ 是选择类别 $k$ 的标注者数量。这种概率表示保留了标注者的分歧并支持标签分布学习。
**表 2:** CH-SIMS v2 GoEmotions 标注统计
| 指标 | 前 2,499 样本 | 后 1,904 样本 |
| :--- | :--- | :--- |
| **N** | 2,499 | 1,904 |
| **标注者标签计数** | 1.84 / 1.42 / 1.41 | 1.93 / 1.25 / 1.51 |
| **并集均值** | 3.68 | 3.60 |
| **并集≥4** | 1,458 | 1,521 |
| **精确匹配 (%)** | 7.6% | 24.4% |相似文章
回音放大知识:通过情感向量重新注入在语言模型中构建躯体标记模拟物
本预印本介绍了一种将情感向量注入语言模型以模拟躯体标记的方法,旨在弥合语义记忆与情景记忆之间的差距。作者证明,将情感回音与语义知识相结合可以提升决策能力,从而复现了人类认知科学中的相关发现。
Omni-Persona:对全模态个性化进行系统性基准测试与改进
本文介绍了 Omni-Persona,这是首个涵盖文本、图像和音频的全模态个性化综合基准测试。该基准包含 Persona Modality Graph(角色模态图)以及用于评估接地(grounding)行为的新指标 Calibrated Accuracy(校准准确率)。
CFMS:面向可解释细粒度中文多模态讽刺检测基准
北京大学研究人员提出了CFMS,这是首个细粒度中文多模态讽刺检测基准,包含2,796个图像-文本对和三级标注框架(讽刺识别、目标识别、解释生成),以及一种新颖的强化学习增强上下文学习方法(PGDS),该方法显著优于现有基线。
大型语言模型中的情绪概念及其功能
Anthropic 发布研究论文,分析了 Claude Sonnet 4.5 的内部机制,揭示了影响模型行为和安全性的功能性情绪相关表征。
表达社会情感:大语言模型与人类文化情感规范的错位
本研究论文考察了大语言模型表达社会情感的方式与人类文化规范的匹配度,发现两者存在系统性错位。与人类回应相比,大语言模型在不同文化身份(欧美裔美国人与拉美裔美国人)下表现出的参与型与抽离型情感表达模式不一致。