评估主动式对话智能体中的多模态情绪识别：一项用户研究

arXiv cs.AI 2026/05/22 04:00 论文

摘要

本文介绍了一个用于主动对话智能体的多模态情绪识别模块，该模块结合了面部识别与语言分析。一项涉及20名参与者的用户研究发现了一种“扑克脸”效应，即视觉线索不可靠，而语言分析则更为准确；研究还表明，智能体可以通过对话适应性来引发情绪。

arXiv:2605.20200v1 公告类型：交叉摘要：本文介绍了集成于生成式人工智能驱动的主动式社交交互智能体（SIA）中的一个多模态情绪识别模块。该系统通过两个不同的通道评估实时情感状态：基于计算机视觉的面部识别模块和语义语言分析引擎。为了验证该框架，我们进行了一项实证研究，有20名用户与对话智能体进行了动态、无脚本的对话。研究结果发现，自动视觉线索与实际内部情绪状态之间存在显著差异。在与AI交互时，用户持续表现出“扑克脸”效应，即使在体验积极情绪时也显示严肃、专注的面部表情。因此，通过将用户的言语表达置于上下文中，生成式AI语言分析被证明更为可靠。此外，对交互动态的分析表明，SIA可以通过调整对话主题和使用结构化语言模式（如同情或幽默语言）来有效引发特定情绪。然而，研究也注意到，不恰当的主动性行为偶尔会导致用户脱离参与和产生虚假感。最终，本研究强调了改进SIA的必要性，使其能够动态适应用户的情感演变，依赖深层语言上下文来促进更自然、更类人的交互。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:51

# 面向主动对话智能体的多模态情绪识别评估：一项用户研究  
来源：https://arxiv.org/html/2605.20200  
\\transtitle\\subtranstitle  

\[https://orcid\.org/0000\-0002\-4773\-4904\] \[https://orcid\.org/0000\-0003\-1231\-7235\] \[https://orcid\.org/0000\-0002\-6137\-9558\]  

\\corres  

F\. Xavier Gaya\-Morey \(\)  

\\transkeywords  

Raquel LacuestaF\. Xavier Gaya\-MoreyJose M\. Buades\-Rubio\\orgdiv埃斯特雷马杜拉理工大学（Teruel校区），\\orgname萨拉戈萨大学，\\orgaddressC/ Atarazana, 2，\\cityTeruel，\\postcode44003，\\state阿拉贡，\\country西班牙\\orgdivI3A（阿拉贡工程研究所），\\orgname萨拉戈萨大学，\\orgaddressC\. de Mariano Esquillor Gómez, s/n，\\city萨拉戈萨，\\postcode50018，\\state阿拉贡，\\country西班牙\\orgdiv巴利阿里群岛大学，\\orgname巴利阿里群岛大学，\\orgaddressCarretera de Valldemossa, km 7\.5，\\city帕尔马，\\postcode07122，\\state巴利阿里群岛，\\country西班牙francesc\-xavier\.gaya@uib\.es (https://arxiv.org/html/2605.20200v1/mailto:[email protected])  

\(–\)  

###### 摘要  

\[摘要\]本文介绍了一个多模态情绪识别模块，该模块集成于一个由生成式人工智能驱动的主动社交交互智能体（SIA）中。系统通过两个不同的通道评估实时情感状态：基于计算机视觉的面部识别模块和语义语言学分析引擎。为验证该框架，我们开展了一项实证研究，招募了20名用户与对话智能体进行动态、无脚本的对话。研究结果揭示了自动视觉线索与用户实际内在情感状态之间存在显著差异。在与AI互动时，用户 consistently 表现出“扑克脸”效应，即使体验到积极情绪，脸上也呈现出严肃、专注的表情。因此，生成式AI的语言分析通过理解用户的言语表达语境，显著更为可靠。此外，对话动力的分析表明，SIA可以通过调整对话主题和采用结构化语言模式（如同情或幽默语言）有效引发特定情绪。然而，研究也指出，未经校准的主动行为有时会导致用户脱离对话并产生机械感。最终，本研究强调了优化SIA的必要性，即使其能够动态适应用户的情感演变，依靠深层语言语境来促进更自然、更类人的互动。  

\\transabstract  

\[翻译摘要\]  

###### 关键词：  

面部识别 | 语言分析 | 社交交互智能体 | 情感计算  

††文章类型：原创论文††期刊：arXiv††卷号：0  

## 1 引言  

理解并回应情绪是人类沟通的基本组成部分。为了让社交交互智能体（SIA）与用户建立有意义的联系，它们必须能够实时识别并适应用户的情感状态（feng2022emowoz）。整合这种情感意识对于让对话智能体更人性化、促进自然对话，并最终提高用户整体接受度至关重要（gao2022emotion）。  

目前，情绪检测系统依赖于多种模态，包括面部表情识别、语音处理、视线追踪以及生物信号（如脑电图EEG和心电图ECG）分析（siam2022deploying，garcia-magarino2018agent-based）。近期研究已显示多模态情绪识别在社交智能体应用中的显著进展。例如，makiuchi2021multimodal提出了一种结合语音和文本的新型跨表征模型，有效超越了传统的单模态方法（语音或文本单独使用）（christ2023muse）。类似地，katada2023effect评估了生理信号与其他模态的融合，用于在自然的人机交互中估计不同类型的情感。  

尽管有这些技术进步，但大多数现有研究仍依赖于预先录制好的数据集、理论模拟或被动观察。目前显著缺乏将多模态情绪检测整合到由生成式AI驱动的动态、实时对话中的研究。具体来说，现有文献未能充分探讨主动的、AI生成的对话如何试图联系用户的特定情绪，也未探究这些互动在实时交流中如何直接影响用户的面部表情和内在情感状态。  

为填补这一空白，本研究提出并实证评估了一个主动对话型SIA。该系统整合了两种核心情绪检测技术：用于面部表情识别的计算机视觉模块和基于生成式AI的语言分析模块。通过与SIA互动的用户进行实际的实时评估，本研究探究了在无脚本互动中人类情绪实际上如何显现。通过比较自动视觉数据、语义语言分析和用户主观自我报告，本研究凸显了关键的互动模式，并评估了这些情绪检测方法在真实环境中的准确性。  

本文其余部分组织如下：第2节（https://arxiv.org/html/2605.20200#S2）回顾了情绪识别与SIA的相关工作。第3节（https://arxiv.org/html/2605.20200#S3）概述了研究目标与具体研究问题。第4节（https://arxiv.org/html/2605.20200#S4）详细介绍了方法学，包括系统设计与评估流程。第5节（https://arxiv.org/html/2605.20200#S5）展示了多模态评估的客观结果。第6节（https://arxiv.org/html/2605.20200#S6）对这些发现进行了讨论，并回答了核心研究问题。第7节（https://arxiv.org/html/2605.20200#S7）指出了本研究的局限性并展望了未来工作，第8节（https://arxiv.org/html/2605.20200#S8）给出了最终结论。  

## 2 相关工作  

人类与人工智能体交互的成功很大程度上依赖于情感身份以及对文化情感的认知。这些元素使智能体能够保持情感一致性，从而将其从单纯的机器转变为能够建立有意义联系的实体（hoey2016affect，malhotra2021emotions）。正如job y2022effect所论证的，智能体参与情感传染（即参与者之间情感状态的传递）的能力对于在社交交流中增强信任、同理心和亲社会取向至关重要。  

### 2.1 社交交互智能体中的情商  

SIA越来越多地被整合到各种领域，因此需要融入情商以改善人机互动。情绪不仅仅是审美层面的，它们对于通过整合认知与社会关系来在社交模拟中创建逼真的行为至关重要。例如，alanazi2023prediction专注于模拟情绪以培养同理心，从而增强智能体的自主性和适应性。类似地，samsonovich2014developing通过基于生物学的认知架构探索了具有情商的虚拟智能体，以复制人类的社会行为。  

erol2020artificial的进一步研究强调了识别人类情感状态以改善情感联系的重要性，并提出了人机交互中的感知架构。同时，tavabi2019multimodal研究了多模态深度神经网络，以识别可用于共情回应的机会。尽管有这些进展，一些作者认为仍存在显著差距：大多数现有模型侧重于理论模拟和情感控制理论，而未解决动态交互中实时处理的挑战（malhotra2021emotions，hoey2016affect）。许多研究，如cipresso2012real和hortensius2018perception，主要回顾人类如何在智能体中感知情绪，但没有深入探讨这些感知如何在实时环境中由智能体自身处理并回应。  

### 2.2 面部表情识别及其局限性  

面部表情识别（FER）是检测用户状态的基本支柱。早期的深度学习方法，如kalyani2023smart所讨论的，强调了将表情与语音和文本结合分析的潜力。wang2020human证明，结合面部特征与语音的双模态方法始终优于单模态系统。现代FER系统使用复杂的模型，如cGAN（deng2019cgan）、语义丰富的框架（chen2022semantic-rich）和高效的架构（如SwishNet（dar2022efficient-swishnet））来促进自然交互。  

然而，从实验室环境到“野外”应用的过渡面临严峻挑战。rani2014emotion和dalvi2021survey指出，光照变化、面部角度和多样性的文化背景需要更健壮的模型。尽管近期发展如LiteFer（yang2024litefer）和视频表示学习（strizhkova2024video）旨在提高有限资源设备上的效率，但更深层次的技术不可靠性仍然存在。cabitza2022unbearable和kusal2024understanding批评了自动FER在处理不同观察者样本时的不一致性。关键的是，wang2024survey和samadiani2019review指出，社交互动中常见的严肃或中性表情常常导致不可靠的检测。这种“表情的模糊性”表明，在真实世界的社交语境中，仅依赖视觉数据可能不足以支持SIA。  

### 2.3 基于文本的情绪检测与生成式AI  

基于文本的情绪检测（TBED）已成为开发共情智能体的关键组成部分（kusal2024understanding，kusal2022review）。虽然它在社交媒体的大数据分析中已被证明有价值（kusal2021ai），但将TBED应用于实时对话却引入了复杂性，例如处理短文本、同义词和倒序单词（maruf2024challenges，wen2024personality-affected）。传统的机器学习方法已取得显著进展（machova2023detection），但完全自动化仍然是一个挑战（maruf2024challenges）。  

生成式AI的出现带来了一次范式转变。bertero2016real-time提出了实时情感识别，使对话系统能够做出恰当回应。更近期，Park等人（park2023generative）关于“生成式智能体”的工作表明，大型语言模型（LLMs）可以模拟可信的人类行为和社会反思。然而，正如ghaffarzadegan2024generative所指出的，这些反馈丰富的计算模型通常用于生成行为，而非在互动过程中分析用户的内部状态。显然，需要利用生成式AI来实时解释用户在不同话题下情绪波动的相关研究，尤其是在视觉线索缺失或具有误导性的情况下（peng2020human-machine）。  

### 2.4 多模态整合与用户体验  

该领域的共识是，整合语音、面部和文本的多模态系统可获得最高的准确率（alonso-martin2013multimodal）。katada2024collecting甚至探索了使用额叶脑信号来捕捉“未表达的情感”，突显了用户常常隐藏真实感受。ge2024modeling进一步强调，理解发言者与情感之间的依赖关系对于基于语境的情感识别至关重要。  

互动本身是一个互惠过程。woo2023reciprocal认为，SIA必须动态调整其行为，既扮演发言者又扮演倾听者。虽然智能体可以诱导喜悦或愤怒等情绪（tanioka2025dialogue，gupta2024facial，alonso-martin2013multimodal），但情感信号的复杂性仍然是实现真正积极用户体验的障碍（samsonovich2014developing，skillicorn2019measuring）。wen2024personality-affected表明，融入人格特质可以产生更吸引人的回应，然而许多这些发现基于理论测试（li2024sia-net）或缺乏与实时AI生成对话引擎的关联（orlov2024real-time）。  

本研究通过开发一个主动的SIA来应对这些局限性，该SIA整合了AI系统以实时生成并识别情绪。通过比较“用户说他们感受到什么”（自我报告）与视觉（SilNet）和语言（生成式AI）分析，我们对“扑克脸效应”进行了关键性评估。与以往专注于模拟的研究不同，我们的工作强调实际应用，探索语言分析如何捕捉面部识别系统可能遗漏的人类情绪细微差别。  

## 3 研究目标与问题  

为了解决人机交互中的情感对齐挑战，本研究评估了一个多模态框架，该框架旨在主动社交对话期间捕获用户情感。与以往侧重于被动识别的研究不同，我们研究了当智能体在生成式AI驱动下主动采取行动时的互动动力。我们的主要目标是分析在无脚本、动态环境中，AI识别的情绪与用户主观感知之间的差异。  

具体来说，本研究旨在回答以下两个核心研究问题：  

- •RQ1（用户情感体验）：用户与主动社交交互智能体互动时的情感体验是什么？这个问题旨在揭示用户在与无脚本的互动中的真实内在印象。通过依赖用户自我报告和问卷，目标是建立一个客观的“真实情况”，即用户在参与AI驱动的社交对话时真正感受到什么。  
- •RQ2（情绪检测效果）：在这些互动中，多模态系统能够多有效地识别用户的情绪？视觉模态和语言模态相比如何？这个问题旨在评估自动化情绪识别在实时环境中的实际可靠性。它侧重于观察用户的面部表情（视觉模态）、生成式AI检测到的基于语义文本的情绪（语言模态）与用户自我报告的真实情况之间的一致性。目标是确定一种模态是否比另一种更有效，并找出检测差异的具体原因。  

通过回答这些问题，我们旨在更清晰地理解人机交互中的“表达鸿沟”，并为更具社交意识的对话系统提供设计建议。  

## 4 方法学  

本节描述了评估的参与者、设计的系统以及为收集结果而进行的评估环节。  

### 4.1 参与者  

本研究共招募了20名参与者，其中女性13名，男性7名。参与者年龄范围为22至90岁（平均值 = 54.90，标准差 = 21.31）。对于一项旨在识别交互模式并验证多模态框架的探索性人机交互（HCI）研究，这个样本量被认为是合适的。特意选择了宽泛的年龄范围以评估系统的性能。  

为确保数据完整性，参与者根据以下纳入标准进行筛选：  

- •认知功能：无已知的认知障碍或神经系统疾病史。  
- •沟通能力：具备正常或轻微的言语能力，确保他们能够

评估主动式对话智能体中的多模态情绪识别：一项用户研究

相似文章

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

你的多模态语音模型说我长了一张适合广播的脸

EMO-BOOST：情绪增强的视听特征提升深度伪造检测的泛化能力

MemEye：面向多模态智能体记忆的视觉中心评估框架

在长期用户交互中个性化具身多模态大语言模型智能体

提交意见反馈