利用自定进度课程学习增强多模态对话情感识别中的模态平衡
摘要
本文提出了一种基于自定进度课程学习的即插即用模块,用于增强多模态对话情感识别中的模态平衡,在IEMOCAP和MELD数据集上实现了F1分数的一致提升。
arXiv:2605.21565v1 公告类型:新版
摘要:多模态对话情感识别(MERC)是理解人类交互的关键任务,融合语言、面部表情和语音语调的多模态方法已取得显著进展。然而,模态对齐不一致和学习不平衡仍是主要挑战,限制了多模态信息的有效利用。为解决这一问题,我们提出了一种基于自定进度课程学习(SPCL)的即插即用框架用于MERC。我们引入了一个双层次难度测量器,同时捕捉话语级和对话级难度。话语级得分对细粒度的模态特定难度进行建模,而对话级得分则捕捉更广泛的对话结构,包括情感依赖性和模态一致性。基于这些得分,学习调度器动态地引导训练从简单实例到困难实例。通过将SPCL集成到现有MERC架构中,我们的方法缓解了模态不平衡并提高了模型鲁棒性。在IEMOCAP和MELD数据集上的大量实验表明,不同架构和模态设置下均有一致改进。在IEMOCAP上,SPCL在基线模型上提高了加权F1分数约+1.2%至+6.6%,而在MELD上提升高达+10.4%。这些结果突显了SPCL作为一种轻量级即插即用模块在多模态情感识别中的有效性和泛化能力。
查看缓存全文
缓存时间: 2026/05/22 08:49
# 利用自定进度课程学习增强多模态对话情感识别的模态平衡 ## 摘要 多模态对话情感识别(Multimodal Emotion Recognition in Conversations, MERC)是一项理解人类交互的关键任务,其中整合语言、面部表情和语音语调的多模态方法已带来显著进展。然而,包括MERC在内的多模态架构中一个持久挑战是模态错配和学习不平衡。这些问题常阻碍模型有效利用多模态信息,导致尽管有多种模态可用,性能仍不理想。为解决此问题,我们为MERC设计了一个框架,其中包含一个基于自定进度课程学习(Self-Paced Curriculum Learning, SPCL)的即插即用模块。与课程学习(CL)一样,有效的难度衡量器(Difficulty Measurer)对于构建有意义的课程调度器(Learning Scheduler)至关重要。本文中,我们提出了一种专为MERC定制的双层级难度衡量器,同时处理对话内部和对话间的动态特性。与仅在话语层面评估难度的传统方法不同,我们的双层级设计引入了对话层面的难度得分。话语层面得分捕捉细粒度的模态特定挑战,而对话层面得分则建模更广泛的对话结构,包括对话中的情感依赖和模态一致性。这种整体评估使我们的课程调度器能够动态引导训练从简单实例到更具挑战性的实例。通过将SPCL集成到现有MERC架构中,我们的方法有效缓解了模态不平衡并增强了模型鲁棒性。在IEMOCAP和MELD数据集上的大量实验证实了持续改进:在IEMOCAP上,SPCL在不同架构和模态设置下,相对于基线模型的加权F1分数提升约+1.2%至+6.6%;而在MELD上,改进更为显著,提升幅度高达+10.4%。这些提升凸显了SPCL在实际MERC应用中的实用价值,因为它显著提高了情感识别准确性,同时保持了作为跨多种模型架构即插即用模块的兼容性。 **关键词:** 自定进度课程学习,模态平衡,多模态情感识别 ## 1 引言 多模态学习因其能够整合来自不同来源的信息(如文本T、音频A和视觉V数据)而在人工智能领域受到广泛关注[yuan2025survey, baltruvsaitis2018multimodal]。通过利用互补模态,多模态模型增强了理解能力并提升了预测性能[liang2021multibench, liang2024foundations]。在其众多应用中,对话情感识别(Emotion Recognition in Conversations, ERC)已成为横跨人工智能、认知科学和社会科学的关键任务。ERC的主要目标是检测对话中每段话语伴随的情感基调。虽然语言起着至关重要的作用,但情感通常通过言语和非言语线索(如面部表情、语调变化和身体姿态)的结合来传达[gladys2023survey]。鉴于人类交流固有的多模态特性,将多模态数据整合到ERC中自然演变为多模态对话情感识别(MERC)。通过联合建模文本、音频和视觉模态,MERC力求超越单模态方法的限制,增强情感识别[ghosal-etal-2020-cosmic, hu2021mmgcn, nguyen-etal-2023-conversation]。 然而,多模态整合的有效性常受模态不平衡的限制,即某些模态在学习中贡献过大,导致模型性能次优。先前研究从不同角度考察了这一现象,将其描述为特定模态的主导[peng2022balanced]、收敛速度差异[wang2020makes, shi2025gradient]或模态的边际效用递减[wang2023unlocking]。zhang2024multimodal将这些挑战归纳为属性差异(Property Discrepancy)和质量差异(Quality Discrepancy)。属性差异源于不同模态因其异质性而表现出不同的学习行为。例如,音频特征往往在过拟合前需要较少的训练迭代,而视觉特征通常收敛更慢。这种不一致使优化变得复杂,难以在模态间平衡学习。质量差异是指模态间任务相关信息分布不均。尽管所有模态都旨在表示相同的底层上下文,但有些模态提供更强的判别信号。多模态模型在其学习动态中天生具有贪婪性,倾向于优先处理信息量最大的模态,同时弱化较弱模态的利用,这进一步加剧了模态不平衡。 图1:在IEMOCAP数据集上,使用完整模态(ATV)训练基线模型与使用双模态(AT或TV)训练相比的性能提升。评估使用W-F1和Acc指标。 在MERC中,文本通常是主导模态,提供明确的情感线索,而音频和视觉特征则更为微妙且依赖上下文。因此,模型可能过度依赖文本数据,未能充分整合其他模态的信息。这种不平衡最终导致融合策略次优和整体性能下降。如图1所示,我们进行了一项实验,比较了三模态模型(ATV)与其双模态版本(TA和AV)的性能。虽然存在三模态方法优于双模态方法的实例,但结果并不一致。在半数情况下,整合所有三种模态导致性能下降,准确率下降0.05%至1.18%,加权F1下降0.11%至1.18%。这些发现凸显了进一步研究模态不平衡的必要性,这是影响MER性能的关键因素。为解决MERC中的模态不平衡,先前研究探索了几种策略,包括预训练单模态网络[du2023uni, wu2022characterizing]、辅助学习目标[xu2023mmcosine, zhou2023intra]以及基于优化的技术[peng2022balanced, fan2023pmr, nguyenrobult]。预训练单模态网络在将各模态特征集成到多模态框架之前利用单独训练的特征提取器,这改进了单模态表示,但通常伴随着高计算成本和对大规模标注数据的需求[ismail2020improving, huang2025adaptive]。辅助学习目标引入额外约束或任务,如对比学习或自监督学习,以增强特定模态表示[zhou2023intra, wulearning],但它们可能难以在多样的对话上下文中泛化。基于优化的方法通过直接调整梯度更新来防止模态主导,在平衡多模态贡献方面显示出前景[wang2023unlocking, peng2022balanced, li2023boosting, liu2025reward],但它们对复杂梯度操作的依赖使其难以实现和调优。 基于这些持续存在的挑战,我们提出了一种基于自定进度课程学习的新方法,以解决MERC中的模态不平衡。作为课程学习的扩展,自定进度课程学习通过根据模型学习进度动态选择训练样本来增强这一过程,确保更自适应且更平衡的训练轨迹。具体而言,我们引入了一个专门为MERC设计的框架,其中包含我们提出的SPCL模块来解决模态不平衡。我们提出的SPCL模块包含两个关键组件:(1) 难度衡量器(Difficulty Measurer),通过双层级设计评估每个训练样本的复杂度,捕捉话语层面的识别性能和对话层面的模态差异,以确保跨模态的平衡学习;(2) 课程调度器(Learning Scheduler),基于模型不断演变的能力动态优化样本选择,逐步引导训练从简单实例过渡到更具挑战性的实例。 虽然模态不平衡在一般多模态学习中已被探索,但其在MERC中与对话上下文和对话结构相关的独特挑战尚未得到充分解决。我们的方法通过提供一种专门为MERC精心定制的SPCL策略填补了这一空白。凭借这一设计,SPCL提高了模型稳定性,减少了模态不平衡引起的问题,并在MERC任务上实现了更好的性能。 总体而言,我们的主要贡献如下: - • 我们引入了一个专为MERC定制的新颖框架,集成了我们基于自定进度课程学习(SPCL)提出的SPCL模块,通过自适应样本选择解决模态不平衡。 - • 我们设计了一个具有双层级评估机制的难度衡量器,同时捕捉话语层面的识别性能和对话层面的模态差异。这确保了更平衡的多模态表示学习过程。此外,我们设计了一个课程调度器,根据模型能力动态选择训练样本,促进渐进式学习过程,增强模型鲁棒性。 - • 我们在基准MERC数据集IEMOCAP[busso2008iemocap]和MELD[poria2019meld]上进行了广泛实验,将SPCL作为插件模块集成到四个基线模型中。结果显示出显著的性能提升,验证了我们方法的有效性。 本文其余部分组织如下:第2节全面回顾相关工作,突出MERC中模态不平衡的现有方法。第3节介绍我们提出的方法,详细说明SPCL模块的架构和功能。第4节描述实验设置,包括数据集、基线模型和评估指标。第5节展示结果,深入分析性能提升、消融研究,并讨论各组件的贡献。最后,第6节总结本文并概述未来研究的可能方向。 ## 2 相关工作 ### 2.1 多模态对话情感识别 多模态对话情感识别(MERC)旨在通过利用多种模态(包括文本、听觉和视觉数据)来识别情感。这些模态之间的相互作用增强了情感识别,然而对话动态的复杂性——如说话者互动和情感状态的演变——带来了重大挑战。为解决这些问题,开发了从序列建模到高级融合和基于图的方法等多种方法论[hu2021mmgcn, ghosal2019dialoguegcn, nguyen-etal-2023-conversation, nguyen-etal-2024-curriculum]。 早期MERC模型主要依赖循环神经网络(RNN)和变换器来建模对话上下文。DialogueGCN[ghosal2019dialoguegcn]将对话结构化为图,通过边连接捕捉说话者关系。COSMIC[ghosal-etal-2020-cosmic]将常识知识整合到基于RNN的框架中,以增强上下文理解,而DialogueCRN[hu-etal-2021-dialoguecrn]采用认知启发机制来建模跨话语的情感流。最近,DialogXL[shen2021dialogxl]展示了变换器在处理对话中的长距离依赖方面的有效性。MERC的一个关键方面是模态的集成方式。初始方法如bc-LSTM[poria-etal-2017-context]和CMN[hazarika-etal-2018-conversational]侧重于拼接模态特征,但缺乏复杂的交互机制。后续方法通过利用层次结构[hazarika-etal-2018-icon]、特征解缠[li2023revisiting]和基于注意力的共学习[shi-huang-2023-multiemo]改进了融合技术。基于变换器的模型如TBJE[delbrouck-etal-2020-transformer]应用模块化共注意力来细化跨模态表示,而AdaIGN[tu2024adaptive]在融合特征空间内选择性调整节点和边关系。除了序列和基于融合的模型外,图神经网络(GNN)已成为编码对话结构的强大工具。MMGCN[hu2021mmgcn]通过图卷积捕捉多模态依赖,同时考虑说话者身份和上下文流。COGMEN[joshi2022cogmen]通过引入随时间动态演化的对话图对此进行了扩展。同时,CORECT[nguyen-etal-2023-conversation]对话语之间的关系交互进行建模,允许跨对话进行精细的表示学习。 尽管有这些优势,但这些方法主要关注架构创新,往往忽视了模态不平衡这一关键问题。解决这一挑战不仅需要优化融合策略,还需要设计技术来平衡不同模态的贡献,确保即使在某些模态主导或表现不佳时也能获得稳健性能。 ### 2.2 不平衡多模态学习 多模态学习是人工智能中一个快速发展的领域,专注于利用和整合来自多种模态(如文本、图像和音频)的数据,以提高模型性能并实现更丰富的理解[baltruvsaitis2018multimodal]。多模态学习中的一个关键挑战是有效整合来自不同模态的信息以实现互补交互。传统的融合策略,如早期融合、中间融合和晚期融合,旨在有效组合多模态信息。然而,这些策略在解决模态竞争[huang2022modality]和不平衡多模态学习(其中主导模态掩盖其他模态)方面能力有限。这种不平衡常导致模态抑制[fan2024detached, wei2025diagnosing],使较弱的模态无法对最终决策做出有意义的贡献。因此,当主导模态缺失或受损时[guo2024multimodal],这些模型的整体性能往往会显著下降。解决这一挑战需要平衡所有模态的贡献,同时确保较弱的模态不会被完全抑制。 近期研究[peng2022balanced, huang2022modality, nguyen2024ada2i]强调,多模态模型常因模态不平衡而无法超越其最佳单模态对应物。为了解决这个问题,各
相似文章
评估主动式对话智能体中的多模态情绪识别:一项用户研究
本文介绍了一个用于主动对话智能体的多模态情绪识别模块,该模块结合了面部识别与语言分析。一项涉及20名参与者的用户研究发现了一种“扑克脸”效应,即视觉线索不可靠,而语言分析则更为准确;研究还表明,智能体可以通过对话适应性来引发情绪。
LongMoE:基于轨迹感知的混合专家模型的纵向多模态学习
LongMoE提出了一个统一框架,同时解决多模态临床学习中的模态缺失和纵向动态问题,利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明,在缺失模态情况下鲁棒性得到提升,同时在完整模态设置下仍具有竞争力。
EmoS:面向细粒度流式情感理解的高保真多模态基准
本文介绍了 EmoS,这是一个专为细粒度流式情感理解设计的高保真多模态基准,旨在解决现有数据集中存在的生态效度不足和标注可靠性低的问题。
EMO-BOOST:情绪增强的视听特征提升深度伪造检测的泛化能力
本文提出Emo-Boost,一种多模态深度伪造检测框架,利用情绪线索(视听情绪识别)作为高层语义信号,提升对未见操纵类型的泛化能力,在FakeAVCeleb数据集上实现了平均AUC提升2.1%。
多模态隐马尔可夫模型用于持续情绪状态跟踪
本文提出了一种轻量级框架,使用粘性因子HDP-HMM从多模态效价-唤醒轨迹中建模会话情绪为潜在状态,旨在实现可解释且计算高效的情绪状态跟踪。