手语对话中的情感识别

arXiv cs.CL 2026/05/25 04:00 论文

emotion-recognition sign-language conversation dataset benchmarking multimodal affective-computing

摘要

本文介绍了用于手语对话情感识别的eJSL Dialog数据集，填补了现有数据集缺乏对话上下文的空白。基准测试表明，应用通用多模态模型时存在领域差距，凸显了针对手语的上下文感知视觉提取器的必要性。

arXiv:2605.23328v1 公告类型：新摘要：对话中的情感识别是情感计算的核心组成部分，而当前手语情感数据集主要集中在孤立句子上，缺乏对话上下文。仅在这些孤立话语上训练的模型在真实场景中表现下降，因为它们无法利用历史对话流。为了解决这一结构局限性，我们将情感识别对话（ERC）任务引入手语视频分析，并提出了eJSL Dialog数据集。该数据集使用STUDIES语料库的脚本构建，包含1,920个视频样本，组织成480个独特的对话。我们使用从孤立视觉网络到多模态对话架构的模型对该数据集进行了系统基准测试。结果显示，将通用多模态对话情感识别模型应用于手语时存在领域差距。这些发现表明，明确需要针对手语的上下文感知视觉提取器，并指出扩大对话数据集规模以支持大规模预训练是未来研究的必要下一步。

查看原文

查看缓存全文

缓存时间: 2026/05/25 09:01

# 手语对话中的情感识别
来源：https://arxiv.org/html/2605.23328
Yusong Wang¹, Keyu Mao¹, Takao Obi¹, Minghao Shao² and Kotaro Funakoshi¹  
¹Yusong Wang, Keyu Mao, Takao Obi, and Kotaro Funakoshi are with Institute of Science Tokyo, Yokohama 230-0045, Japan. {wangyi, maokeyu, obi, funakoshi}@lr.first.iir.isct.ac.jp  
²Minghao Shao is with New York University, New York, 11201, USA. [email protected]

###### 摘要

对话情感识别是情感计算的核心组成部分，而当前手语情感数据集资源主要聚焦于孤立句子，缺乏对话上下文。仅在这些孤立话语上训练的模型在真实场景中性能下降，因为它们无法利用历史对话流。为解决这一结构局限性，我们将对话情感识别任务引入手语视频分析，并提出 eJSL Dialog 数据集。该数据集利用 STUDIES 语料库的脚本构建，包含 1,920 个视频样本，组织成 480 个独特的对话。我们对该数据集进行了系统性的基准测试，模型涵盖孤立视觉网络到多模态对话架构。结果揭示了将通用多模态对话情感识别模型应用于手语时存在的领域差距。这些发现表明，针对手语设计上下文感知的视觉提取器具有明确必要性，并且扩展对话数据集规模以支持大规模预训练是未来研究的关键下一步。

## 1 引言

情感识别使机器能够感知用户的情感状态并提供同理心回应，这使其成为虚拟助手和情感感知辅助技术等应用的核心组成部分[20, 21, 27]。当前大多数系统主要关注口语和非手语人群的标准面部表情。将这些技术扩展到常被主流研究忽视的手语，是必要的一步[17, 1]。在手语交流中，由于语言本身的视觉特性，情感识别任务变得高度复杂。作为视觉语言，手语主要依靠手势、面部表情和上半身动作同时传达语言结构和情感内容[6, 8]。语法特征与情感特征之间的重叠给自动情感识别系统带来了显著的歧义性[6, 9]。在手语中准确捕捉和建模情感动态，仍然是计算机视觉和语言处理领域的一项实际挑战。

现有手语情感分析资源主要关注孤立句子或单向表达。例如，eJSL Solo[10] 等数据集由脱离对话上下文的手语视频片段组成。类似地，EmoSign 数据集[5] 集中于捕捉单个视频话语中的情感表达。这些数据集推动了孤立手语情感识别的研究，但它们忽略了真实交流中存在的对话上下文。

通常，仅在这些孤立话语上训练的情感识别模型无法利用历史上下文。因此，当应用于真实场景（其中情感意义依赖于连续对话流）时，这些模型性能下降[13, 18, 11]。在真实的双向交互中，情感状态经历动态演变过程。个体的情感转变受自身情感历史影响，也是对其对话者状态的直接反应。对话历史的缺失限制了现有模型理解复杂情感演变的能力。因此，在多重话轮对话场景中探索手语情感识别，是推动该领域发展的核心步骤。

为解决这一结构局限性以及现有研究中对话数据的缺乏，我们为手语对话情感识别任务提出了 eJSL Dialog 数据集。这是对该特定任务的首次探索。eJSL Dialog 数据集使用 STUDIES 日语共情对话语音语料库[23] 的对话脚本构建。脚本每一行都设有情感类别标签。构建的数据集共包含 1,920 个视频样本，分为 480 个独特的对话，围绕师生互动展开。表 I 展示了来自 STUDIES 的一个对话示例，说明了学生与教师之间的动态情感交流。

表 I：来自 STUDIES[23] 的教师与男学生对话行示例，用于我们的 eJSL Dialog 数据集。

为建立客观的评估基准，我们在此数据集上应用并比较了多种基线方法。这些模型涵盖纯视觉情感识别网络、基于文本的对话情感识别模型，以及多模态对话情感识别架构。我们的基准评估证实，缺乏上下文感知的视觉模型无法捕捉动态情感转换。此外，结果揭示了将通用多模态对话情感识别模型应用于手语时存在的领域差距。这些发现表明，针对手语设计上下文感知的视觉提取器具有明确必要性，并且扩展对话数据集规模以支持大规模预训练是未来研究的关键下一步。

本文的主要贡献如下：

- 我们正式定义了手语视频分析的对话情感识别任务，为双向交互场景建立了客观评估基准。
- 我们构建并发布了 eJSL Dialog 数据集，提供具有显式多重话轮对话上下文及对应情感标注的手语视频样本，以解决孤立话语数据集的结构局限性。
- 我们使用多种模型对该数据集进行了系统性的基准测试。我们证明了孤立视觉模型和通用多模态对话情感识别模型的局限性，确认了针对手语设计上下文感知视觉提取器的明确必要性，并指出扩展对话数据集规模以支持大规模预训练是未来研究的关键下一步。

## 2 背景

### 2-A 手语与情感

手语利用视觉-手势模态和非手动标志（如面部表情和上半身动作）来传达信息[24, 3]。手语情感识别的一个关键挑战在于面部表情的双重功能[6, 9]。它们同时编码语法结构（如疑问句）和情感状态（如惊讶）。这种重叠给自动识别系统带来了歧义性，因为相同的面部动作可能表示语言功能或情感反应[25]。事实上，关于手语识别中情感的研究非常稀少。例如，一份调查[17] 回顾了 200 多篇相关论文，但其中并未包含任何情感识别工作。

### 2-B 视觉情感识别

当前方法通过将面部和手势特征整合到多模态框架中来处理视觉情感识别[12, 26, 4]。然而，这些方法主要集中于对孤立视频序列进行分类[30, 31, 28]。它们通常依赖于帧级空间特征聚合和短期时间跟踪。因此，它们不具备建模持续交互交流中存在的长期情感动态和对话上下文依赖关系的结构能力。

### 2-C 对话情感识别

对话情感识别涉及识别对话中多个话轮参与者的情感状态[21, 19]。在真实交互中，情感基于个人历史和对话者的回应而演变[13, 18, 32]。当前的对话情感识别研究主要集中于口语，使用文本和声学模态。这些框架有时包含视觉线索，但针对非手语人群优化，其中面部表情主要反映情感状态[12, 26, 4]。如前所述，在手语中，面部表情具有双重角色，同时编码语法结构和情感内容。这引入了显著的领域差距，通用模型难以区分语言标志和情感转换。在手语中探索对话情感识别对于建模实际交流中的动态转换是必要的。

### 2-D 现有手语情感数据集

现有的手语情感识别数据集主要由孤立句子或单一表达组成。例如，eJSL Solo 数据集[10] 包含手语者在指定情感类别下表演特定句子的单独视频片段（使用日本手语）。类似地，EmoSign 数据集[5] 集中于捕捉单个美国手语视频话语中的情感表达。然而，由于这些录音脱离了任何对话流，它们缺乏对话分析所需的多重话轮对话历史。这种顺序交互的缺失意味着这些数据集无法表示手语者如何根据伙伴先前陈述调整其情感表达。这一限制阻碍了研究人员开发能够理解手语中上下文依赖情感变化的模型。

为解决现有数据集的局限性以及当前研究中对话上下文的缺失，我们构建了 eJSL Dialog 数据集。表 II 比较了 EmoSign、eJSL Solo 和 eJSL Dialog。eJSL Solo 和 Dialog 分别完全和接近平衡，但两者均非自发（表演性质），而规模较小的 EmoSign 是自发的但不平衡。

表 II：现有带情感标注的手语数据集比较。

## 3 方法

### 3-A 数据源与脚本选择

我们从 STUDIES 语料库[23] 的短对话子集中抽取了数据集的语言内容。在原始语料库中，短对话脚本通过微任务众包机制收集。具体而言，数据收集过程启动了 12 个微任务，并为每个任务招募了 100 名参与者。经过初步筛选，该过程共获得 720 个短对话文本，包含 4 种情感类型。这些对话中的每个话语都带有显式情感标签。原始文本脚本经过人工修订，移除了打字错误和不恰当的表达，为手语改编提供了干净的文本基线。

从该集合中，我们选择了 480 个对话来构建数据集。选择旨在平衡 4 种情感类型和二元性别的实例数量。我们特别利用了每个对话由四个连续话语组成的结构。这一长度提供了足够的对话历史以建模情感转换，并且适用于共情对话系统的简化评估。

参考标题 图 1：手语视频录制过程示意图。演员根据提供的脚本和情感标签用手语表演对话。每位演员的 RGB 摄像头交替记录表演，生成最终视频数据集。

### 3-B 手语视频录制

整体录制流程如图 1 所示。我们使用所选脚本录制了手语视频。对话设定在一个辅导学校场景中，涉及一位女教师与一名男学生或女学生互动。根据原始语料库，男学生由男性手语者表演，女学生由女性手语者表演。另一方面，教师角色由两人共同表演，因为只有一名男手语者和一名女手语者。对于每个对话行，演员同时通过电脑屏幕看到文本和对应话语级情感标签，并且只有相应的演员交替录制该行。基于这些指令，演员用日本手语表达文本的语义含义及指定的情感状态。

参与的演员是母语为日本手语的手语者，职业为聋人演员。他们能流利读写日语，因此所有指令和话语均以日文文本呈现。录制于 2025 年进行。我们使用机构的标准化同意书获得了手语者的明确同意，并支付了参与报酬。根据机构预筛查，伦理审查被豁免。

视频在受控室内环境中录制，背景为纯白色以消除视觉干扰。每位手语者录制时使用单一 RGB 摄像头，固定高度放置。最终视频处理分辨率为 1440×1080，帧率为每秒 30 帧。每个片段是一个完整的日本手语话语，传达单一预期情感。

## 4 eJSL Dialog 结构

### 4-A 数据集配置

eJSL Dialog 数据集包含 1,920 个视频片段，组织成 480 个独特的对话。涵盖八个不同场景，每个场景恰好 60 个对话，数据集结构严格，每个对话由四个连续话语组成。录制视频数据总时长约为 4.65 小时。在话语级别，片段平均时长 8.73 秒，最短 2.94 秒。

手语对话中的情感识别

相似文章

EmoS：面向细粒度流式情感理解的高保真多模态基准

SignX：在紧凑且富含姿态的潜在空间中进行连续手语识别

德国手语童话故事的情感分析

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

评估主动式对话智能体中的多模态情绪识别：一项用户研究

提交意见反馈