MER-R1: 通过慢速-快速思维协同的多模态情感推理

arXiv cs.AI 论文

摘要

本文介绍了MER-R1,一个通过协同快速和慢速思维进行多模态情感识别的强化学习框架。它通过双目标解耦和慢速-快速置信度校准,联合优化召回率和精确率,从而实现了最先进的性能。

arXiv:2606.27652v1 Announce Type: new 摘要:我们发现,显式推理并不一定能转化为更好的多模态情感识别(MER)准确率,尽管它使预测更具可解释性。具体来说,对于基于推理的多模态大语言模型(MLLMs),通过触发直接答案的快速思维往往优于经过深思熟虑后的慢速思维。我们的实证分析表明,快速思维通过更广泛和更自信的预测提高了召回率,而慢速思维则通过保守地过滤错误类别来偏向精确率。基于这些发现,我们提出了MER-R1,这是一个强化学习框架,将慢速-快速互补性转化为显式优化。双目标解耦将召回率和精确率分离为两个优化信号,使它们能够联合优化而非相互权衡。慢速-快速置信度校准进一步将最终的慢速思维答案与快速思维直觉对齐,增强正确情感的同时抑制错误情感。通过这种方式,MER-R1统一了快速思维的以召回为导向的直觉和慢速思维的以精确为导向的选择性。我们进一步为这种协同提供了理论依据,表明它减轻了优化过程中方差引起的干扰。在MER-UniBench和MME-Emotion上的大量实验表明,MER-R1实现了最先进的性能,并使推理真正有益于情感识别。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:27

# MER-R1: 基于慢速与快速思维协同的多模态情感推理 来源:https://arxiv.org/html/2606.27652 韩志远1,2,4,朱蓓儿2,†,佟雯雯2,秦成威3,王心怡1,张嘉宇1,陈江南2,郭贺伟2,冉东川2,卢乐维2,杨勋1,† 1中国科学技术大学 2商汤科技研究院 3香港科技大学(广州) 4合肥综合性国家科学中心人工智能研究院 [email protected], [email protected] †通讯作者。

###### 摘要 我们发现,显式推理并不一定能提升多模态情感识别(MER)的准确率,尽管它使预测更具可解释性。具体而言,对于基于推理的多模态大语言模型(MLLM),通过触发直接答案的“快速思维”往往比经过深思熟虑的“慢速思维”表现更好。我们的实证分析表明,快速思维通过更广泛、更自信的预测提升了召回率,而慢速思维则通过保守地过滤错误类别来倾向于精确率。基于这些洞察,我们提出了MER-R1,一个将慢速-快速互补性转化为显式优化的强化学习框架。双目标解耦将召回率和精确率分离为两个优化信号,使它们能够被联合优化,而非相互权衡。慢速-快速置信度校准进一步将最终的慢速思维答案与快速思维直觉对齐,增强正确情感的同时抑制错误情感。通过这种方式,MER-R1统一了快速思维的召回导向直觉与慢速思维的精确导向选择性。我们还为这种协同作用提供了理论依据,表明它减轻了优化过程中由方差引起的干扰。在MER-UniBench和MME-Emotion上的广泛实验表明,MER-R1达到了最先进的性能,并使得推理真正有益于情感识别。

## 1 引言 多模态大语言模型(MLLMs)[6 (https://arxiv.org/html/2606.27652#bib.bib11),28 (https://arxiv.org/html/2606.27652#bib.bib12),34 (https://arxiv.org/html/2606.27652#bib.bib13)]的最新进展正在改变情感计算[24 (https://arxiv.org/html/2606.27652#bib.bib17),12 (https://arxiv.org/html/2606.27652#bib.bib34),27 (https://arxiv.org/html/2606.27652#bib.bib18)],将多模态情感识别[14 (https://arxiv.org/html/2606.27652#bib.bib45),15 (https://arxiv.org/html/2606.27652#bib.bib46),25 (https://arxiv.org/html/2606.27652#bib.bib36),1 (https://arxiv.org/html/2606.27652#bib.bib37)]从固定标签预测转向开放词汇多模态情感识别(OV-MER)[11 (https://arxiv.org/html/2606.27652#bib.bib50),13 (https://arxiv.org/html/2606.27652#bib.bib10)],模型需要识别多样且开放的人类情感。为了提高可信度[16 (https://arxiv.org/html/2606.27652#bib.bib49)],最近基于RLVR的方法[4 (https://arxiv.org/html/2606.27652#bib.bib19),17 (https://arxiv.org/html/2606.27652#bib.bib21),36 (https://arxiv.org/html/2606.27652#bib.bib20)]进一步为情感MLLM配备了显式推理链,将情感预测基于视觉、听觉和文本线索。尽管前景看好,但我们发现这种推理并不一定会带来更强的情感识别。具体而言,我们考虑一个类R1情感推理模型[34 (https://arxiv.org/html/2606.27652#bib.bib13),17 (https://arxiv.org/html/2606.27652#bib.bib21)]的两种思维模式:(1) 慢速思维:经过标准推理过程后产生答案;(2) 快速思维:直接引出答案,无需推理。尽管推理轨迹合理(图1 (https://arxiv.org/html/2606.27652#S1.F1)(a)),但慢速思维在当前的OV-MER基准如MER-UniBench[11 (https://arxiv.org/html/2606.27652#bib.bib50),13 (https://arxiv.org/html/2606.27652#bib.bib10)](图1 (https://arxiv.org/html/2606.27652#S1.F1)(b))上 consistently 不如快速思维。这揭示了MER中的“思维悖论”:推理提高了可解释性,但未能提升识别准确率本身。为理解这一悖论,我们在第3节 (https://arxiv.org/html/2606.27652#S3) 从预测和置信度角度分析了快速和慢速思维。在预测层面,快速思维表现出更强的系统-1直觉[10 (https://arxiv.org/html/2606.27652#bib.bib9)],产生更广泛的情感覆盖和更高的召回率,而慢速思维则做出更集中的预测并倾向于精确率。在置信度层面,快速思维对正确情感更自信,而慢速思维更保守地抑制错误类别,但也可能降低对正确类别的信心。这些发现提出了有效MER推理的两个“慢速-快速协同需求”:保留快速思维的召回导向覆盖和正确类别置信度,同时保留慢速思维的精确导向选择性。

参照图注
图 1: MER 中的思维悖论与慢速-快速协同。(a) 激励示例:慢速思维谨慎但可能遗漏有效情感,而快速思维提高了覆盖率但引入了噪声。慢速-快速协同结合了它们的互补优势。(b) 在 9 个数据集上的评估总结:快速思维反直觉地优于慢速思维。

为了实现这些需求,我们提出了 MER-R1,一个包含两个组件的强化学习(RL)框架。首先,**双目标解耦**将召回率和精确率分离为两个优化目标,并在奖励和优势空间中保留它们。与先前直接优化  F1  奖励的直接优化 MER 推理方法 [17 (https://arxiv.org/html/2606.27652#bib.bib21)] 不同,我们的设计防止了在优势归一化过程中召回率和精确率相互干扰。我们的理论分析进一步表明,标准  F1  优化可能偏向于组内变异较大的目标,而双目标优势则建立了对召回率和精确率信号的平衡耦合。其次,**慢速-快速置信度校准**将快速思维的置信度行为迁移到最终的慢速思维答案,同时保留慢速思维的选择性。具体来说,我们比较两种思维模式在类别级别的置信度,并以相反方向校准正确和错误类别:正确类别被鼓励保持或超越快速思维的置信度,而错误类别则被鼓励继续保持抑制。这使得 MER-R1 能够增强正确情感,而不会吸收快速思维的噪声过度覆盖。

我们的贡献有三点:
(1) **发现**:我们揭示了 MER 中的“思维悖论”:对于基于推理的 MLLM,快速思维可以优于慢速思维。我们从预测和置信度角度诊断了这一悖论,并推导出慢速-快速协同的两个需求。
(2) **方法**:我们提出了 MER-R1,一个具有双目标解耦和慢速-快速置信度校准的 RL 框架,能够对正确和错误类别进行联合召回-精确率优化和置信度校准。
(3) **性能**:MER-R1 在 MER-UniBench 和 MME-Emotion 上达到了最先进的结果,并验证了满足两个慢速-快速协同需求使得推理对情感识别真正有益,而不仅仅是提高可解释性。

## 2 相关工作

**MLLM 推理。** 最近的多模态大语言模型(MLLMs)[6 (https://arxiv.org/html/2606.27652#bib.bib11),35 (https://arxiv.org/html/2606.27652#bib.bib16),34 (https://arxiv.org/html/2606.27652#bib.bib13),18 (https://arxiv.org/html/2606.27652#bib.bib48),19 (https://arxiv.org/html/2606.27652#bib.bib138)] 通过基于可验证奖励的强化学习(RLVR)[4 (https://arxiv.org/html/2606.27652#bib.bib19),10 (https://arxiv.org/html/2606.27652#bib.bib9),32 (https://arxiv.org/html/2606.27652#bib.bib3)] 获得了推理能力,使其能够在推理过程中显式地对视觉、听觉和文本信号进行推理。基于这一能力,最近的工作 [23 (https://arxiv.org/html/2606.27652#bib.bib31),33 (https://arxiv.org/html/2606.27652#bib.bib29),22 (https://arxiv.org/html/2606.27652#bib.bib32),31 (https://arxiv.org/html/2606.27652#bib.bib26)] 试图解决日益复杂的多模态推理任务。然而,最近的研究表明,慢速思维并不总是优于快速思维。VideoAuto-R1 [20 (https://arxiv.org/html/2606.27652#bib.bib5)] 在视频理解任务上观察到了这一现象,并通过一种“答案-思考-答案”范式来解决,该范式同时奖励早期和最终答案,并为后者分配更大的权重。然而,这种设计仍停留在输出层面,没有建模为什么快速和慢速思维存在差异,更不用说如何实现它们之间的协同。相比之下,我们的工作研究了它们潜在的互补性,并将其转化为多模态推理的显式协同框架,从而使慢速思维真正更有效。

**多模态情感理解。** 多模态情感理解近期从封闭集分类转向更加开放和注重推理的设置 [16 (https://arxiv.org/html/2606.27652#bib.bib49),2 (https://arxiv.org/html/2606.27652#bib.bib51),5 (https://arxiv.org/html/2606.27652#bib.bib22),11 (https://arxiv.org/html/2606.27652#bib.bib50)]。开放词汇多模态情感识别(OV-MER)[13 (https://arxiv.org/html/2606.27652#bib.bib10)] 要求模型预测超出固定标签空间的自由形式情感词,而 MME-Emotion [41 (https://arxiv.org/html/2606.27652#bib.bib8)] 则进一步使用基于 LLM 的判断器评估识别和推理能力。最近的情感 MLLM [42 (https://arxiv.org/html/2606.27652#bib.bib54),36 (https://arxiv.org/html/2606.27652#bib.bib20),17 (https://arxiv.org/html/2606.27652#bib.bib21),26 (https://arxiv.org/html/2606.27652#bib.bib4)] 越来越多地引入推理以提高可解释性,并使用强化学习试图进一步提升情感识别。然而,推理本身是否真正改善了情感识别仍不清楚。我们识别并系统研究了多模态情感推理中的“思维悖论”,即快速思维在识别上可能优于慢速思维,并通过一个显式的慢速-快速思维协同框架解决了这一问题。

## 3 理解思维悖论

本节探讨一个反直觉的发现:在 MER 任务中快速思维优于慢速思维(图 1 (https://arxiv.org/html/2606.27652#S1.F1)(b))。我们表明,快速思维通过更多样和更自信的预测提高了召回率,而慢速思维更加保守,通过抑制错误类别来偏好精确率,但降低了对正确类别的信心。在当前主要依赖召回率或 F1 指标的评估下,慢速思维的优势并未被完全体现。我们首先介绍情感推理的公式和基于情感轮的评估协议。

### 3.1 问题公式化与基于情感轮的评估

参照图注
图 2: 情感轮。

给定多模态输入 $x$,策略 $\pi_\theta$ 生成输出 $y=(y^{\mathsf{cot}}, y^{\mathsf{ans}})$,其中 $y^{\mathsf{cot}}$ 表示思维链推理轨迹,$y^{\mathsf{ans}}$ 表示最终情感答案。慢速思维遵循标准的先思考后回答格式,而快速思维通过仅回答的提示直接生成 $y^{\mathsf{ans}}$ 而不进行推理,即 $y^{\mathsf{cot}}=\emptyset$。由于模型答案 $y^{\mathsf{ans}}$ 和真实情感 $y^{\mathsf{gt}}$ 都可能包含多个自由形式的情感词,我们遵循先前工作 [11 (https://arxiv.org/html/2606.27652#bib.bib50),13 (https://arxiv.org/html/2606.27652#bib.bib10)],通过情感轮将其映射到一级类别。例如,如图 2 (https://arxiv.org/html/2606.27652#S3.F2) 所示,最内层的扇区定义了一级情感类别,如愤怒、快乐和悲伤。外层扇区中的细粒度情感词则映射到这些类别;例如,快乐、满足和欢呼被映射到一级类别“快乐”。令 $\hat{\mathcal{Y}}$ 和 $\mathcal{G}$ 分别表示从 $y^{\mathsf{ans}}$ 和 $y^{\mathsf{gt}}$ 获得的预测和真实的一级类别集合。我们通过集合级别的匹配来评估预测。具体而言,召回率、精确率和 F1 定义为:
$R = \frac{|\hat{\mathcal{Y}} \cap \mathcal{G}|}{|\mathcal{G}|}$, $P = \frac{|\hat{\mathcal{Y}} \cap \mathcal{G}|}{|\hat{\mathcal{Y}}|}$, $F = \frac{2PR}{P+R}$.
当前的 OV-MER 评估主要依赖于基于召回率的指标 [11 (https://arxiv.org/html/2606.27652#bib.bib50)] 或基于 F1 的指标 [13 (https://arxiv.org/html/2606.27652#bib.bib10)]。我们进一步检查精确率和类别级别置信度以诊断思维悖论。

参照图注
图 3: 在五个 MER 基准上的思维悖论分析。(a) 在召回率 ($R$)、精确率 ($P$) 和 F1 ($F$) 上的性能差距,其中 $\Delta M = M_{\mathsf{fast}} - M_{\mathsf{slow}}$,对于 $M \in \{R, P, F\}$。(b) 通过平均预测情感类别数量衡量的预测多样性。(c) 对真实情感类别的置信度。(d) 真实情感类别与难负例情感类别之间的置信度边际。

### 3.2 精确率-召回率权衡

在图 3 (https://arxiv.org/html/2606.27652#S3.F3)(a) 中,我们报告了在五个广泛使用的数据集 [13 (https://arxiv.org/html/2606.27652#bib.bib10),12 (https://arxiv.org/html/2606.27652#bib.bib34),14 (https://arxiv.org/html/2606.27652#bib.bib45),15 (https://arxiv.org/html/2606.27652#bib.bib46),25 (https://arxiv.org/html/2606.27652#bib.bib36),1 (https://arxiv.org/html/2606.27652#bib.bib37)] 上快速思维和慢速思维在精确率、召回率和 F1 上的性能差距。快速思维在召回率上 consistently 领先,而慢速思维在精确率上领先;总体上,快速思维在 F1 上保持微弱优势。图 3 (https://arxiv.org/html/2606.27652#S3.F3)(b) 报告了快速和慢速思维预测的平均情感类别数量。结果显示预测多样性存在明显差异:快速思维覆盖更多情感类别,而慢速思维产生更集中的预测。这两个分析共同引出以下发现:
**发现 1:** 快速思维通过更广泛的情感覆盖提升了召回率,而慢速思维则通过更集中的预测倾向于精确率。
先前的基准如 MER-UniBench [11 (https://arxiv.org/html/2606.27652#bib.bib50)] 主要使用命中率作为评估指标,这反映了召回率但不惩罚过度预测(低精确率)。这有助于解释为什么在当前评估下快速思维比慢速思维显得更有利。

### 3.3 自信 vs. 保守的预测

为了比较置信度行为,我们首先聚合映射到一级类别(定义 1 (https://arxiv.org/html/2606.27652#Thmdefinition1))的自由形式情感词的概率质量。然后我们将这种置信度在真实类别和难负例类别之间进行对比,以……(注:原文在此处截断,但翻译应基于提供的内容继续。)

相似文章

ReM-MoA:推理记忆维持混合智能体扩展

arXiv cs.AI

ReM-MoA 引入了一种记忆增强的混合智能体框架,通过排序推理记忆和策划的多样化记忆路由来维持扩展,在五个推理基准测试中优于之前的 MoA 变体。