面向多模态情感-原因配对提取的鲁棒配对置信度学习

arXiv cs.CL 论文

摘要

本文介绍了RPCL,一种仅用于训练阶段的鲁棒配对置信度学习框架,用于多模态情感-原因配对提取。该框架改进了黄金配对与困难负例之间的判别性分离,并在三个数据集上的Pair F1和AUPRC指标上取得了显著提升。

arXiv:2606.18893v1 公告类型:新 摘要:多模态情感-原因配对提取(MECPE)需要可靠的候选配对的配对置信度。现有的配对评分器通常对有效候选配对使用配对级交叉熵,这种方式大多独立处理链接。这使得竞争原因之间的相对置信度几何结构约束不足,导致黄金配对可能接近困难负例或依赖偶然的非黄金上下文。我们将此脆弱性称为配对置信度脆弱性,并提出RPCL(鲁棒配对置信度学习),一个仅用于训练阶段的配对置信度学习框架。RPCL鼓励配对置信度同时具有判别性和稳定性:通过置信度差异边界约束,将黄金配对与逐行的困难负例分离;并将干净配对预测与损坏视图(非黄金上下文话语表示部分损坏)的预测对齐。推理时,原始的干净配对评分器和解码流程保持不变。在ECF、MECAD和MEC4上,在全文本-音频-视频设置下,RPCL将三种子均值Pair F1相对于匹配的基础模型提高了2.58到2.83个百分点,并在所有三个数据集上提高了均值Pair AUPRC。诊断分析进一步显示黄金-负例置信度差距更大,边界违反严重性更低。这些结果表明,显式塑造配对置信度是MECPE的一种有效训练策略。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:46

# 学习鲁棒对置信度用于多模态情感-原因对提取
来源:https://arxiv.org/html/2606.18893
[![[未标注图片]](https://arxiv.org/html/2606.18893v1/x1.png)Zhuangzhuang Pan](https://orcid.org/0009-0009-0451-2162) 马来亚大学高等研究院,吉隆坡 50603,马来西亚 23078403@siswa\.um\.edu\.my&[![[未标注图片]](https://arxiv.org/html/2606.18893v1/x2.png)Ning Dong](http://orcid.org/0000-0003-3045-9798) 宿迁学院信息工程学院,宿迁 223800,中国 dongning@squ\.edu\.cn[![[未标注图片]](https://arxiv.org/html/2606.18893v1/x3.png)Yingna Su](http://orcid.org/0000-0003-2348-5082) 宿迁学院信息工程学院,宿迁 223800,中国 suyingna@squ\.edu\.cn&[![[未标注图片]](https://arxiv.org/html/2606.18893v1/x4.png)Yan Xia](https://orcid.org/0009-0006-3559-4680) 苏州城市学院数字化部,苏州 215500,中国 23072126@siswa\.um\.edu\.my

###### 摘要

多模态情感-原因对提取 (MECPE) 需要候选对上可靠的对置信度。现有的对评分器通常对有效候选使用基于对级别的交叉熵,这主要独立地处理链接。这使得竞争原因之间的相对置信度几何关系约束不足,导致金标对可能接近困难负样本,或依赖于偶然的非金标上下文。我们研究这种脆弱性,称之为对置信度脆弱性,并提出RPCL(鲁棒对置信度学习),一个仅用于训练阶段的对置信度学习框架。RPCL鼓励对置信度既具有判别性又具有稳定性:通过置信度差边界约束,将金标对与行级困难负样本分开;并通过将干净对预测与来自部分损坏的非金标上下文话语表示的损坏视图的预测对齐。在推理时,原始干净对评分器和解码流程保持不变。在 ECF、MECAD 和 MEC4 数据集上,在全文本-音频-视频设置中,RPCL将匹配基线的三种子均值 Pair F1 提升了 2.58–2.83 个百分点,并在所有三个数据集上提升了均值 Pair AUPRC。诊断分析进一步显示,金标-负样本置信度差距更大,并且边界违反严重度更低。这些结果表明,显式塑造对置信度是 MECPE 的一种有效训练策略。

*关键词*多模态情感-原因对提取⋅\cdotMECPE⋅\cdot对置信度学习⋅\cdot行条件边界排序⋅\cdot损坏上下文对稳定性

## 1 引言

对话中的多模态情感-原因对提取 (MECPE) 旨在识别哪些话语表达情感以及哪些话语是导致这些情感的原因,从而在对话中形成情感-原因对\(Xia and Ding,2019 (https://arxiv.org/html/2606.18893#bib.bib1); Wanget al\.,2023a (https://arxiv.org/html/2606.18893#bib.bib4)\)。与基于文本的情感-原因对提取相比,它在对话结构内部进行对决策,其中情感、原因、说话者和背景轮次交错在一起\(Liet al\.,2023b (https://arxiv.org/html/2606.18893#bib.bib2); Jeong and Bak,2023 (https://arxiv.org/html/2606.18893#bib.bib3); Huet al\.,2024c (https://arxiv.org/html/2606.18893#bib.bib20)\)。相关原因可能与情感相隔数个轮次,由另一位参与者说出,或者由文本、声学和视觉线索不均匀地支持\(Wanget al\.,2024b (https://arxiv.org/html/2606.18893#bib.bib5); Wuet al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib6); Liet al\.,2023a (https://arxiv.org/html/2606.18893#bib.bib26); Yuet al\.,2025a (https://arxiv.org/html/2606.18893#bib.bib25)\)。这些特性使得该任务成为一个结构化对决策问题:对于给定的情感话语,多个候选原因在局部可能都看似合理,但只有一小部分对应标注的因果关系。

常见的训练实践是将候选对作为正或负对实例进行监督,通常使用基于交叉熵的目标函数作用于有效候选\(Liet al\.,2023b (https://arxiv.org/html/2606.18893#bib.bib2); Chenget al\.,2023 (https://arxiv.org/html/2606.18893#bib.bib12); Liet al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib8),2024 (https://arxiv.org/html/2606.18893#bib.bib17)\)。这种监督是必要的,但它主要通过每个候选自身的标签来评估它。它没有直接强制在多个原因竞争同一个情感时所需的相对置信度几何关系。在困难情况下,金标对可能仍然接近那些与真正原因共享说话者、主题、时间邻近性或多模态情感证据的非金标候选\(Wanget al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib19); Juet al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib9); Maet al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib23)\)。这种脆弱性被称为对置信度脆弱性。

本文从可靠对置信度的角度研究对话中的多模态情感-原因对提取。一个有用的对得分应满足两个互补的要求。首先,对于固定的情感话语,金标原因的得分应与同一个情感的最强非金标替代项分开。其次,当标注金标对之外的上下文话语被部分扰动时,对得分应保持稳定。这些要求通过直接塑造对评分器如何在看似合理的链接之间分配置信度,补充了在多模态交互、标签约束、记忆启发建模和图结构方面的最新进展\(Liet al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib8); Wuet al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib6); Lianget al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib7)\)。

为此,本文提出了 RPCL(鲁棒对置信度学习),一个仅用于训练阶段的对评分情感-原因模型框架。RPCL 在推理时不添加任何融合模块、解码器或后处理步骤。在训练期间,它鼓励两种行为:金标对应与同一情感的强竞争原因区分开,并且当非金标上下文证据被部分损坏时,对预测应保持一致性。在推理时,原始干净对评分器和相同的解码流程保持不变。

评估在 ECF、MECAD 和 MEC4 数据集上使用匹配的基线对评分器、相同的输入特征和不变的解码流程进行\(Wanget al\.,2023a (https://arxiv.org/html/2606.18893#bib.bib4); Wuet al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib6); Lianget al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib7)\)。总体而言,贡献如下:

- • 我们识别了 MECPE 中的对置信度脆弱性,并将可靠对置信度学习形式化为一个超越独立候选对分类的训练问题。
- • 我们提出了RPCL,一个仅用于训练阶段的框架,通过鼓励与强非金标替代项分离以及在保持标签的上下文扰动下的稳定性,来改善对置信度。
- • 我们通过受控比较和置信度诊断验证了所提出的机制,显示了对提取性能的提升以及更好的金标-负样本置信度分离。

## 2 相关工作

##### 结构化情感-原因对提取

情感-原因对提取 (ECPE) 将情感分析重新定义为情感话语和原因话语之间的链接预测,而不是独立的情感/原因检测\(Xia and Ding,2019 (https://arxiv.org/html/2606.18893#bib.bib1); Liet al\.,2023b (https://arxiv.org/html/2606.18893#bib.bib2)\)。对话扩展增加了说话者轮次和对话上下文,而最近的 ECPE 系统探索了引导专家、常识生成和语义结构以实现更明确的因果推理\(Jeong and Bak,2023 (https://arxiv.org/html/2606.18893#bib.bib3); Wanget al\.,2023b (https://arxiv.org/html/2606.18893#bib.bib10); Yuet al\.,2025b (https://arxiv.org/html/2606.18893#bib.bib18); Wanget al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib19)\)。这些工作定义了提取空间,但很大程度上隐含了置信度几何关系。

##### 多模态情感-原因对建模

多模态 ECPE 进一步将因果链接与文本、声学和视觉证据绑定,ECF、SemEval-2024、MECAD 和 MEC4 提供了具有代表性的基准\(Wanget al\.,2023a (https://arxiv.org/html/2606.18893#bib.bib4),2024b (https://arxiv.org/html/2606.18893#bib.bib5); Lianget al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib7); Wuet al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib6)\)。现有系统通过整体跨模态交互、因果提示、记忆启发聚合、异质图或 LLM 增强生成来加强对建模\(Huet al\.,2024c (https://arxiv.org/html/2606.18893#bib.bib20); Chenget al\.,2024 (https://arxiv.org/html/2606.18893#bib.bib21); Luoet al\.,2024 (https://arxiv.org/html/2606.18893#bib.bib22); Juet al\.,2025 (https://arxiv.org/html/2606.18893#bib.bib9); Wanget al\.,2024a (https://arxiv.org/html/2606.18893#bib.bib24)\)。它们改进了证据编码,而 RPCL 则研究评分后的置信度表面。

##### 对可靠性的训练目标

一些 ECPE 研究通过使监督在情感检测、原因检测和对提取之间更具结构一致性,从而超越了普通的对分类\(Fenget al\.,2023 (https://arxiv.org/html/2606.18893#bib.bib13); Chenget al\.,2023 (https://arxiv.org/html/2606.18893#bib.bib12); Huet al\.,2024b (https://arxiv.org/html/2606.18893#bib.bib14)\)。另一条线通过更强的表示或针对不平衡候选对的采样策略来改进训练信号\(Huet al\.,2024a (https://arxiv.org/html/2606.18893#bib.bib15); Suet al\.,2024 (https://arxiv.org/html/2606.18893#bib.bib16); Liet al\.,2024 (https://arxiv.org/html/2606.18893#bib.bib17)\)。最近关于可靠性的研究进一步重新审视了置信度校准、负样本正则化以及在噪声视图下的一致性\(Huanget al\.,2026 (https://arxiv.org/html/2606.18893#bib.bib28); Luoet al\.,2026 (https://arxiv.org/html/2606.18893#bib.bib29); Heet al\.,2026 (https://arxiv.org/html/2606.18893#bib.bib30)\)。然而,这些目标正则化的是标签、任务、示例或表示,而不是行条件的置信度几何关系,在这种几何关系中,金标原因必须胜过同一情感的困难替代项。RPCL 在保持干净推理的同时,增加了这种缺失的行级压力和损坏上下文稳定性。

## 3 方法

### 3.1 问题形式化

给定一个对话D=\{ui\}i=1nD=\\\{u\_\{i\}\\\}\_\{i=1\}^\{n\},每个话语uiu\_\{i\}可能包含文本、声学和视觉信息。多模态情感-原因对提取的任务是识别情感-原因对的集合

Y=\{\(i,j\):uiexpresses an emotion andujis its cause\}\.Y=\\\{\(i,j\):u\_\{i\}\\text\{ 表达一种情感并且 \}u\_\{j\}\\text\{ 是它的原因\}\\\}\.\(1\)令V⊆\{1,...,n\}2\\mathcal\{V\}\\subseteq\\\{1,\\ldots,n\\\}^\{2\}表示在采用的解码方案下的有效候选对集合,并令

yij=1\[\(i,j\)∈Y\],\(i,j\)∈V,y\_\{ij\}=\\mathbf\{1\}\[\(i,j\)\\in Y\],\\qquad\(i,j\)\\in\\mathcal\{V\},\(2\)表示对标签。

我们构建在一个通用多模态 ECPE 骨干网络上。对于每个对话,骨干网络首先为每个话语utu\_\{t\}生成一个多模态话语表示hth\_\{t\}。基于这些表示,它为话语uiu\_\{i\}输出情感 logitsziez\_\{i\}^\{e\},为话语uju\_\{j\}输出原因 logitszjcz\_\{j\}^\{c\},并为每个有效候选对\(i,j\)∈V\(i,j\)\\in\\mathcal\{V\}输出对 logitssij∈R2s\_\{ij\}\\in\\mathbb\{R\}^\{2\}。对评分器可以被视为一个模块,它消耗对话级别的话语表示和候选索引:

sij=fpair\(\{ht\}t=1n,i,j\)\.s\_\{ij\}=f\_\{\\mathrm\{pair\}\}\(\\\{h\_\{t\}\\\}\_\{t=1\}^\{n\},i,j\)\.\(3\)我们用

πij=softmax⁡\(sij\),pij=πij,1\.\\bm\{\\pi\}\_\{ij\}=\\operatorname\{softmax\}\(s\_\{ij\}\),\\qquad p\_\{ij\}=\\bm\{\\pi\}\_\{ij,1\}\.\(4\)表示对分布和正对置信度。这里,pijp\_\{ij\}是对评分器用于判断uju\_\{j\}是否是uiu\_\{i\}中情感的原因的置信度。相同的对评分接口随后被损坏分支使用,其中\{ht\}t=1n\\\{h\_\{t\}\\\}\_\{t=1\}^\{n\}被替换为损坏的表示\{h~t\}t=1n\\\{\\tilde\{h\}\_\{t\}\\\}\_\{t=1\}^\{n\}\。

### 3.2 鲁棒对置信度学习概述

我们将多模态 ECPE 视为在有效情感-原因候选上学习一个结构化的*对置信度表面*。由于对话中的所有候选对共享相同的对话上下文,可靠的对置信度由两个耦合因素塑造:同一情感的替代原因之间的竞争以及当非因果上下文被扰动时的稳定性。

标准的对级别交叉熵通过其二元标签监督每个有效对,但它没有显式塑造这种行级置信度几何关系,并且仅在干净对话上训练。因此,金标对可能仍然接近同一情感行中的困难负样本,或者依赖于偶然的非金标上下文。RPCL通过两个仅用于训练的约束来解决这个问题:(i) 行条件边界排序,它将金标对与同一行内前kk个困难负样本分开,以及 (ii) 损坏上下文对稳定性,它在扰动非金标话语的同时保留金标对证据,并对齐由此产生的对预测。这两个约束都作用于原始对评分器,推理流程保持不变。图1 (https://arxiv.org/html/2606.18893#S3.F1)总结了该框架。

参见图注图 1:RPCL 概览。CDMR 将金标对与行级困难负样本分离,CCPS 在保护上下文损坏后对齐干净/损坏的预测。
### 3.3 行条件边界排序

我们首先使每个情感行内的对置信度具有判别性。对于情感话语uiu\_\{i\},令

Pi=\{j:\(i,j\)∈V,yij=1\},Ni=\{j:\(i,j\)∈V,yij=0\},P\_\{i\}=\\\{j:\(i,j\)\\in\\mathcal\{V\},\\,y\_\{ij\}=1\\\},\\qquad N\_\{i\}=\\\{j:\(i,j\)\\in\\mathcal\{V\},\\,y\_\{ij\}=0\\\},\(5\)其中PiP\_\{i\}和NiN\_\{i\}分别是行ii的金标原因集和非金标候选集。该约束仅应用于两个集合都非空的行。

在所有非金标候选中,最具信息量的是那些当前模型已经认为看似合理的候选。因此,我们根据当前对置信度挖掘前kk个困难负样本:

Hi=TopKj∈Ni⁡\(pij\),H\_\{i\}=\\operatorname\{TopK\}\_\{j\\in N\_\{i\}\}\(p\_\{ij\}\),\(6\)其中HiH\_\{i\}包含所选负样本的索引。如果可用负样本少于kk个,则使用所有负样本。TopK\\operatorname\{TopK\}操作仅用于在当前前向传播中选择负候选。我们不通过离散选择本身进行反向传播。

对于每个金标原因j\+∈Pij^\{\+\}\\in P\_\{i\}和困难负样本j−∈Hij^\{\-\}\\in H\_\{i\},鼓励模型满足

pij\+−pij−≥mi,j\+,j−\.p\_\{ij^\{\+\}\}\-p\_\{ij^\{\-\}\}\\geq m\_\{i,j^\{\+\},j^\{\-\}\}\.\(7\)当困难负样本也看起来像原因时,边界应该更大。我们使用原因分类器作为置信度信号。令

qjc=softmax\(zjc\)1q\_\{j\}^\{c\}=\\operatorname\{softmax\}\(z\_\{j\}^\{c\}\)\_\{1\}\(8\)是话语uju\_\{j\}是原因话语的概率。自适应边界定义为

mi,j\+,j−=m0exp⁡\(sg⁡\(qj−c−qj\+c\)\),m\_\{i,j^\{\+\},j^\{\-\}\}=m\_\{0\}\\exp\\\!\\left\(\\operatorname\{sg\}\(q\_\{j^\{\-\}\}^\{c\}\-q\_\{j^\{\+\}\}^\{c\}\)\\right\)

相似文章

评估主动式对话智能体中的多模态情绪识别:一项用户研究

arXiv cs.AI

本文介绍了一个用于主动对话智能体的多模态情绪识别模块,该模块结合了面部识别与语言分析。一项涉及20名参与者的用户研究发现了一种“扑克脸”效应,即视觉线索不可靠,而语言分析则更为准确;研究还表明,智能体可以通过对话适应性来引发情绪。

CoRA: 面向可靠思维链推理的置信度-理由对齐

arXiv cs.CL

本文介绍了CoRA,一种基于GRPO的强化学习框架,旨在将LLM的置信度与生成的理由对齐,以提高思维链推理的可靠性,在多个基准测试中将不对齐误差降低了高达26.51%。