生成学习作为提升情感身体运动表达感知的工具

arXiv cs.LG 论文

摘要

本文研究使用基于Transformer的生成模型从日本演员的动作捕捉数据中学习情感身体运动,生成基于离散情感标签的运动。评估表明,生成的运动在用于数据增强时能提升情感识别性能,并实现情感强度间的平滑过渡。

arXiv:2606.28769v1 公告类型:新 摘要:情感身体运动表达是非语言交流的关键要素。通过技术有效传达这些表达至关重要,例如在虚拟现实化身和社交机器人中。生成模型的最新进展为推进情感身体运动学习研究开辟了新机遇。然而,由于情感线索的微妙性、个体差异和文化差异,生成准确的情感表达表征颇具挑战。我们研究生成模型是否能在没有显式情感-运动引导的情况下,直接从文化背景下的动作捕捉数据中隐式学习情感身体运动。利用包含49位日本演员情感表演的数据集,我们训练了一个基于Transformer的生成模型,使其能够在13个离散情感标签条件下生成富有表现力的运动。我们从两个角度评估生成的运动:(1) 基于LSTM的分类器评估机器观察者的识别能力,识别准确率达22.80%;(2) 邀请日本评估者进行人类感知研究,评估与人类情感解读的一致性,识别准确率达24.91%。此外,我们还评估了生成建模在三个实际任务中的效用:增强情感识别模型、提取代表性情感特定运动模式以及合成情感强度之间的平滑过渡。我们的研究结果突显了隐式、数据驱动的生成模型在增强情感计算应用以及加深对情感表达理解方面的潜力。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:29

# 生成式学习作为改善情感身体运动表达感知的工具
来源:https://arxiv.org/html/2606.28769
Miao Cheng Victor Schneider Yoshifumi KitamuraXin Wei Hideaki Uchiyama Monica Perusquia\-Hernandez

###### 摘要

情感身体运动表达是非语言交流的基本要素。在技术中有效传达这些表达至关重要,例如在虚拟现实化身和社交机器人中。生成模型的最新进展为推进情感身体运动学习的研究开辟了新机遇。然而,生成准确的情感表达表征极具挑战性,因为情感线索具有微妙性、个体差异性和文化差异性。我们研究生成模型是否能够直接从植根于文化的动作捕捉数据中隐式学习情感身体运动,而无需明确的情感-动作指导。利用49名日本演员的情感表演数据集,我们训练了一个基于Transformer的生成模型,以生成以13种离散情感标签为条件的情感表达动作。我们从两个角度评估生成的动作:(1)基于LSTM的分类器,用于评估机器观察者的识别能力,识别准确率达到22.80%;(2)由日本评分者参与的人类感知研究,用于评估与人类情感解释的一致性,识别准确率为24.91%。除此之外,我们还评估了生成建模在三个实际任务中的实用性:增强情感识别模型、提取代表性的情感特定动作模式,以及合成情感强度之间的平滑过渡。我们的研究结果凸显了隐式、数据驱动的生成建模在增强情感计算应用以及加深我们对情感表达理解方面的潜力。

## I 引言

参考标题图1:我们关于情感条件动作生成及其对情感识别和插值影响的研究概述。左图:生成模型根据离散的情感标签生成全身情感动作,捕捉诸如感恩情感中前倾姿势等表达性线索。中图:生成的动作在由基于真实数据训练的情感识别模型监督下,用于扩充训练集,从而比仅使用真实数据获得更高的识别准确率。右图:潜在空间支持同一情感内不同强度级别之间的平滑插值,从而实现对表达变化进行细粒度控制。

情感表达的研究主要集中于面部和声音信号,而身体运动的情感表达仍研究不足[12,38,23]。身体运动在传达情感方面至关重要,特别是在非语言或身体距离较远的交流中。这在虚拟现实(VR)、社交机器人和远程呈现系统等应用中越来越重要,其中全身动作是交互的关键通道。生成表达情感的身体动作对于创建引人入胜且自然的用户体验至关重要,并且可能比传统的以面部为核心的视频平台鼓励更丰富的非语言行为[8,10]。除了动画和交互系统,生成情感身体运动还为研究情感动作提供了引人注目的机会。生成模型可以揭示核心表达模式,并通过提供数据增强来改善具身情感表达识别[29]。

动作生成变得越来越流行,在动作合成和文本到动作生成等任务中取得了令人印象深刻的结果[34,33,20]。然而,旨在合成全身动作以传达情感的情感身体运动生成仍然探索不足。情感表达往往是情境依赖的[3],并且由于个人表达风格而高度个体化[14]。此外,身体条件、文化规范和个人期望使得情感动作的产生和感知复杂化[21]。这使得从情感到身体动作的映射天生具有挑战性。

先前针对情感身体运动生成的研究通常利用明确的情感线索和结构化监督来指导生成过程,严重依赖手动定义的情感-动作关系。先前的工作将特定情感状态映射到特定肢体动作,例如将悲伤与低头姿势和略微弯曲的躯干相关联,随后将这些手工制作的关联注入人体肢体生成中[43]。虽然在受控场景中有效,但此类方法无法捕捉情感细微表达。

我们探索了从植根于文化的动作数据中隐式生成情感表达人体动作的潜力。我们不依赖预定义的映射或手工制作的情感到动作规则,而是研究仅基于表达性表演训练的生成模型是否能够学习与情感类别相关的有意义的动作模式。为此,我们利用了一个由49名日本演员表演的情感表演的丰富动作数据集,明确捕捉了个体差异和日本特有的线索。我们采用基于Transformer的变分自编码器(VAE)来学习情感条件动作的潜在表示。在生成过程中,潜在向量从每个情感类别的学习分布中采样,并解码为由人体模型表示的姿态序列。我们通过两个互补的角度评估生成的动作:(1)一个基于LSTM的情感分类器,训练用于预测情感标签,以量化模型生成情感模式的能力;(2)一项由日本评分者参与的人类感知研究,以检查合成动作是否与普通观察者情感解释的方式一致。此外,我们探索了生成模型在三个任务中的实际效用(图1):1. 情感识别的数据增强。从人体动作中识别情感具有挑战性,原因在于表达风格的固有变异性、标记数据有限,以及情感特定线索相对于更明确的控制信号(如动作标签)的微妙性。生成模型通过合成匿名的情感表达动作,可用于评估识别系统和扩充训练数据集,从而提供了一个有前景的解决方案。2. 提取代表性动作模式。虽然情感表达因人而异,但我们假设生成模型在每个情感类别内编码了共享的、原型特征。通过解码中心潜在向量,我们旨在揭示可能支持行为分析或合成的共同动作倾向。3. 情感强度之间的插值。情感表达的强度往往不同。利用学习到的潜在空间的连续性,我们测试是否可以在不同强度的情感表达之间生成平滑过渡,从而为建模分级情感行为提供一种方法。通过这些分析,我们的研究阐明了隐式、数据驱动的生成建模作为推进情感科学中情感身体运动理解工具的机遇和局限性。

## II 相关工作

### II-A 动作生成

近期动作生成的进展导致了从结构化输入(如动作类别和文本描述)合成人体动作的多种方法。早期工作使用递归网络进行姿态预测[13],而其他工作通过分层RNN改进了时间连贯性[28]。后来,时间VAE被用于从动作标签生成3D人体动作[17]。在此基础上,提出了基于动作条件的Transformer VAE(ACTOR),从以动作标签和持续时间为条件的序列级潜在空间中采样[31],并在动作去噪和动作识别方面具有优势。使用另一种方法,Tevet等人[39]采用了在关节空间中运行的无分类器Transformer扩散模型。后来,在动作潜在空间中进行扩散被提出,以减少计算开销同时保持生成质量,从而实现更高效的条件生成[5]。除了动作类别输入,文本到动作合成方面的工作将语言嵌入映射到动作[1,32,44,16,20],重点在于动作语义。我们采用ACTOR作为我们的基础生成模型,该模型已被广泛应用于各种动作生成任务[32,33],并在序列级合成中的时间连贯性、计算效率和可控性之间提供了良好的平衡[34]。

### II-B 情感动作生成

情感表达通常通过面部[24]和声音[2]模态进行研究,从而在跨模态生成情感感知输出方面取得了早期成功[42,4,25,15,36,37]。相比之下,全身情感动作的生成仍然相对未被充分探索,尽管有证据表明仅通过身体动作就可以传达情感[30,41]。早期的基于规则的方法将身体特征映射到情感状态[9],但由于未能捕捉情感在不同个体、情境和文化中身体表达的广泛变异性,限制了表达的丰富性。最近的工作试图通过利用大语言模型(LLM)来解决数据表示的异质性和稀缺性。使用了富含情感的文本提示(例如,“一个充满悲伤的男人向前走”),并微调LLM以推断情感状态如何影响特定身体部位[43]。重要的是,情感到肢体的映射是事先手动定义的,并在LLM训练期间作为监督信号使用。这些纯粹的基于规则的映射包括诸如“头部:低垂,向下看”或“躯干:略微弯曲”等术语。然而,数据方法和基于规则方法的混合可能缺乏灵活性,特别是关于文化背景和个体差异如何塑造情感感知和执行[11,22]。因此,我们探索生成模型是否可以直接从表演数据中学习产生表达性的全身情感动作,而不依赖手动预定义的动作到情感指导。

## III 方法

参考标题图2:基于ACTOR的情感动作生成模型概述[31]。该模型由基于Transformer的编码器和解码器组成,作为条件变分自编码器进行训练。编码器接收线性投影的动作输入序列 \(H_1, \ldots, H_T\),并与对应于给定标签 \(e\) 的情感特定令牌 \(\mu_e\) 和 \(\Sigma_e\) 拼接,输出潜在分布参数 \(\hat{\mu}\) 和 \(\hat{\Sigma}\)。采样潜在向量 \(z\) 并传递给解码器,与情感嵌入 \(b_e\) 和位置编码一起,重建动作序列 \(\hat{H}_1, \ldots, \hat{H}_T\)。在推理过程中,通过从情感 \(e\) 的学习分布中随机采样 \(z \sim \mathcal{N}(\bar{\mu}_e, \bar{\Sigma}_e)\) 来执行生成。

### III-A 数据集

我们使用了亚洲表演者多元跨文化情感数据库(DIEM-A)[7]的一个子集,包含来自49名日本专业表演者(27名女性,22名男性;平均年龄=38.7岁;平均表演经验=19.6年)的动作数据。每位表演者被要求为13种情感类别准备表演:喜悦、悲伤、愤怒、惊喜、恐惧、厌恶、轻蔑、感恩、内疚、嫉妒、羞耻、自豪和中性。对于12种非中性情感,表演者每个类别创作三个引发情感的场景,以三种不同强度级别(低、中、高)表演,而中性情感需要三个场景,不指定强度。这个协议导致每位表演者产生111个动作序列。对表演者如何表达情感没有施加限制,以确保表达风格和动作的多样性。

最初使用动作捕捉记录的表演被转换为SMPL人体模型[26]以表示人体动作。SMPL使用两组参数提供详细且富有表现力的基于网格的表面级全身人体表示:(1)姿态参数 \(\boldsymbol{\theta} \in \mathbb{R}^{24 \times 3}\),以轴角格式定义23个身体关节的相对旋转和全局根部朝向;(2)形状参数 \(\boldsymbol{\beta} \in \mathbb{R}^{10}\),用于解释个体特定的身体形状变化。该模型使用线性混合蒙皮函数生成网格。为了产生逼真的动作,然后使用关节位置对变形后的网格进行姿态设置。

为了准备数据用于分析和生成,我们首先清理原始记录,从120 Hz降采样到20 Hz,并导出为C3D格式。然后使用MoSh++[27]将这些清理后的序列转换为SMPL表示。转换后,我们应用了在AMASS数据集[27,35]上训练的T-pose去除分类器,自动检测和移除校准T-pose及周围的中间中性过渡。所有结果都经过手动验证,仅保留对应于每个场景主要表达内容的片段。因此,最终数据

相似文章