Task-Routed Mixture-of-Experts 与认知评价理论在隐式情感分析中的应用

arXiv cs.CL 论文

摘要

本文提出了一种结合认知评价理论的 Task-Routed Mixture-of-Experts 模型用于隐式情感分析,通过引入辅助任务来改善从上下文中推理情感的能力,并优于现有方法。

arXiv:2605.20916v1 公告类型: 新 摘要: 隐式情感分析具有挑战性,因为对某个方面情感往往是从事件中推断出来的,而不是通过显式的情感词来表达。现有模型通常从最终极性标签中学习,这为从上下文中推理情感提供的指导有限。受认知评价理论启发,我们提出了一种基于评价的多任务学习(MTL)框架用于隐式情感分析,该框架通过两个互补的辅助任务提供极性预测:隐式情感检测和认知理由生成。然而,在MTL中训练多个目标不同的任务并共享单个骨干网络会限制灵活性并可能导致任务干扰。为了减少这些相关但不同目标之间的干扰,我们采用了任务级混合专家模型,其中所有任务共享一组共同的专家,而任务标识控制这些专家的稀疏组合。我们的方法基于编码器-解码器架构,并用这些稀疏混合替换了编码器和解码器块的一个子集。我们使用任务条件路由器为每个任务选择稀疏专家混合,并使用任务分离路由目标来鼓励不同任务学习不同的专家选择模式。实验结果表明,我们的模型优于近期提出的方法,在隐式情感子集上取得了显著提升。我们的代码可在 https://github.com/yaping166/TRMoE-ISA 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:36

# 任务路由混合专家模型与认知评估的隐式情感分析
来源:https://arxiv.org/html/2605.20916
Yaping Chai, Haoran Xie, Joe S. Qin本研究由香港研究资助局研究影响基金(项目编号:130272)、中国香港特别行政区研究资助局拨款(R1015-23)、岭南大学学院研究资助(SDS24A8, SDS25A15, SDS24A19)、跨学科与战略研究资助(ISRG252606)以及直接资助(DR25E8, DR26F2)支持。*(通讯作者:Haoran Xie。)* Yaping Chai, Haoran Xie, Joe S. Qin 来自香港岭南大学人工智能学系(电子邮箱:[email protected]; [email protected]; [email protected])。

###### 摘要

隐式情感分析极具挑战性,因为对某一方面的情感往往是从事件中推断出来的,而非通过显性的观点词来表达。现有模型通常仅从最终的情感极性标签中学习,这为从上下文中推理情感提供的指导有限。受认知评估理论的启发,我们提出了一种基于评估感知的多任务学习(MTL)框架用于隐式情感分析,该框架为极性预测提供了两个互补的辅助任务:隐式情感检测和认知理由生成。然而,在MTL中,训练多个目标不同的任务并共享单一主干网络会限制灵活性,并可能导致任务干扰。为了减少这些相关但不同目标之间的干扰,我们采用了任务级混合专家模型,其中所有任务共享一组通用的专家,任务标识控制着这些专家的稀疏组合。我们的方法基于编码器-解码器架构,并将部分编码器和解码器块替换为这些稀疏混合体。我们使用一个任务条件路由器为每个任务选择稀疏专家混合,并使用任务分离路由目标鼓励不同任务学习不同的专家选择模式。实验结果表明,我们的模型优于最近提出的方法,在隐式情感子集上取得了显著提升。我们的代码可在https://github.com/yaping166/TRMoE-ISA 获取。

## I. 引言

基于方面的情感分析(ABSA)旨在识别评论中针对特定方面所表达的情感极性,并已成为理解细粒度观点的核心研究方向[4]。然而,现有大部分工作假设情感证据已在文本中给出。像“delicious”、“rude”或“overpriced”这样的词语通常表明说话者的评价意图。相比之下,“我们等了四十分钟才有人来到桌前”这句话并不包含明显的负面形容词,但它仍然表达了对服务的不满。这种场景被称为隐式情感分析(ISA),具有挑战性,因为极性无法仅凭显性情感词推断出来[17]。

现有方法通过改进上下文表示[29]或将隐式表达与显性情感词对齐[20]取得了进展。然而,大多数学习目标仍然集中在单一的极性标签上。这种指导告诉模型表达了什么情感,但没有提供关于情感判断背后推理的信息。在隐式情况下,推理链对于解释很重要[11, 9]。例如,一位顾客比同桌其他人晚很多才收到主菜,可能会将该事件评估为阻碍了准时服务的目标(目标不利性)并违反了预期的服务规范(规范不兼容)[32]。这些评估解释了说话者在负面态度出现之前如何沿着核心心理维度(如目标和期望)对事件进行评价。这些中间认知步骤解释了为什么对服务的态度很可能是负面的,然而单任务极性学习仅提供最终的极性结果(负面),而不是导致该结果的中间步骤,这限制了隐式情感推理的学习信号。

根据认知评估理论,情感反应源于对心理因素(包括目标、期望、动因和后果)的认知评估[15, 24]。这一观点表明,方面级情感不仅是一个极性决策,也是情感过程的结果。受此启发,我们将ISA建模为一个基于评估感知的多任务学习问题。除了极性分类,我们引入了认知评估推理,其中模型生成一个简短的解释,说明说话者为何对目标方面持有某种态度。该理由提供了中间情感信息,将评论中的事件与最终极性联系起来。我们还引入了隐式情感检测,即模型预测情感证据是显性还是隐性的。该任务引导模型超越词汇层面的情感词,推断事件的情感含义。

这些辅助任务与极性分类互补。然而,它们需要不同的目标:极性分类关注最终情感标签,隐式情感检测关注显性-隐性的证据判断,而理由生成需要生成解释性句子。在多任务学习中,通常使用单一主干网络处理不同格式和目标的多个任务,这可能导致参数联合更新时产生任务干扰和负迁移[27, 8]。在相关目标之间共享情感知识同时限制干扰仍然具有挑战性。

任务级混合专家模型(MoE)提供了一种有效的方式来应对这一挑战[19, 1]。先前的任务级MoE研究[5, 31, 13]表明,专家路由可以通过为不同任务分配不同的专家混合,同时允许任务在需要重叠知识时共享专家,从而帮助多任务模型实现合作与专业化。这激励我们采用任务路由MoE架构,其中路由器以任务标识为条件,允许不同任务使用任务特定的专家混合,而不是每一层都通过相同的网络。

基于以上动机,我们提出了一个统一的隐式情感分析框架。它将每个方面级实例转化为三个自然语言任务:极性分类、隐式情感检测和认知评估推理。我们的方法建立在序列到序列主干[6]之上,并采用任务路由专家层。每个任务都有一个可学习的表示,每个路由层使用该表示为前馈专家选择一个稀疏混合。我们进一步引入了一个任务分离路由目标。该目标降低了不同任务的门控分布之间的相似性,鼓励它们形成跨专家层可分离的路由模式。因此,模型保留了共享的预训练语言知识,同时为评估感知的隐式情感推理创建了任务条件化的路径。

我们的贡献如下:

- • 我们采用任务路由的混合专家模型用于评估感知的隐式情感分析,并使用任务标识对样本进行路由,使相关任务能够共享知识,同时保持其专家选择模式不同。
- • 我们提出了一个任务分离路由目标,鼓励不同任务获得可分离的专家选择模式,从而减少任务干扰。
- • 对基准数据集的实证评估表明,我们的方法在隐式情感子集等多个指标上优于最近的方法,证明了所提方法的有效性。

## II. 相关工作

### II-A 隐式情感分析

隐式情感分析关注的是观点词不直接表达对方面情感的场景。先前的工作通过对齐表示或使用外部知识和合成数据来解决隐式情感表达的稀缺性。例如,[17]引入了用于隐式情感的监督对比预训练,利用对比学习、评论重建和掩码方面预测来对齐显性和隐性情感表达的表示。[28]构建了具有方面和极性增强通道的多方面样本,并使用基于熵的过滤器的对比学习来减少生成样本中的噪声。最近的文本数据增强方法通过利用大型语言模型的生成能力来提升模型性能[3]。例如,[11]使用思维链提示逐步推导潜在方面、潜在观点和最终极性。其他研究利用连接方面与其隐式情感的内部逻辑和句法依赖。例如,[29]提出了一种关系图注意力网络,使用面向方面的依赖树围绕目标方面重塑句法结构,帮助模型将方面与其相关观点表达联系起来。[30]研究了混淆情感词的影响,并使用工具变量与随机扰动来估计句子与其情感之间更干净的因果关系。这些方法表明,ISA受益于更丰富的上下文建模和隐式-显式对齐。然而,它们中的大多数仍然主要针对最终极性决策进行优化。相比之下,我们的工作将隐式性检测和认知理由生成作为辅助任务,使辅助目标通过超越表面情感标签的额外监督维度来补充极性分类。

### II-B 用于ABSA的多任务学习

多任务学习使得相关任务之间可以共享知识,使模型能够利用不同任务的互补信息[2]。在ABSA中,[22]通过领域特定语言模型微调后跟任务特定监督训练来改进方面目标情感分类,表明领域感知的辅助训练可以减少通用预训练与目标领域情感预测之间的不匹配。[20]为隐式情况生成显式情感增强,并将其作为极性预测的额外线索。[14]研究了使用大型语言模型进行多任务隐式情感分析,构建了辅助情感元素任务并使用自动权重学习来处理数据和任务的不确定性。然而,在MTL中,训练多个目标不同的任务并共享单一主干网络会限制灵活性,并可能导致任务干扰[27]。任务级混合专家模型通过维护一组通用专家并为每个任务激活不同的专家来缓解这一问题。例如,[31]使用任务表示将任务路由到不同的专家组合,并分析所学的跨任务技能。[5]使用MoE层和互信息目标来鼓励任务与专家之间的稀疏依赖,在多任务学习中平衡合作与专业化。除了任务条件的稀疏专家,我们提出了一个任务分离路由目标,允许相关任务共享知识,同时使不同任务能够选择不同的专家,从而减少任务干扰。

## III. 方法

参见图1:我们框架的概述。A. 多任务数据构建:每个方面级实例被转化为三个文本到文本任务。B. 理由生成:认知评估理由生成任务的提示模板,以及模型输出的示例。C. 任务路由MoE-FFN块:在专家之前应用层归一化;仅保留top-k专家权重;然后使用路由权重组合这些专家的输出。我们的框架包含三个组成部分。首先,我们将每个方面级实例转化为统一的文本到文本多任务问题,包括极性分类、隐式情感检测和认知评估推理。其次,我们将选定编码器和解码器层中的前馈模块替换为一组任务条件的专家,使模型能够共享通用语言知识,同时根据任务标识分配不同的专家混合。第三,我们使用任务分离路由目标鼓励学习到的路由模式在不同任务之间是可分离的。图1显示了我们的方法概览。

### III-A 问题形式化

每个标注实例是一个元组 \((x, a, y, e, r)\),其中 \(x \in \mathcal{X}\) 是一条评论文本;\(a\) 是 \(x\) 中的一个方面术语;\(y \in \mathcal{Y} = \{\text{positive}, \text{negative}, \text{neutral}\}\) 是针对该方面的黄金极性。数据集提供了一个隐式性指示符 \(e \in \{0,1\}\),其中 \(e=1\) 表示隐式情感,\(e=0\) 表示显式情感,以及一个简短的理由 \(r\),解释为什么 \(y\) 被分配给 \((x, a)\)。我们不只预测极性 \(y\),而是将每个方面级实例转化为三个文本到文本任务:

\(\mathcal{T} = \{\textsc{pol}, \textsc{imp}, \textsc{rea}\}\) 涵盖极性分类(pol)、隐式性检测(imp)和认知评估推理(rea)。在所有三个任务上进行训练提供了不同目标的监督:情感决策、情感是否通过显性观点线索表达或从上下文推断,以及对底层评估的文本描述。

### III-B 认知评估理由生成

为了提升ISA语言模型的推理能力,我们使用大型语言模型(LLM)生成一个认知评估理由,明确连接句子、目标术语和情感极性。LLM为认知评估生成一个基于评估的理由 \(r\),指示 \((x, a)\) 和 \(y\) 之间的关系,创建一个增强...

相似文章

专家感知的拒绝引导

arXiv cs.CL

本文将拒绝引导(基于激活的越狱方法)扩展至混合专家(MoE)大语言模型,发现 MoE 的路由模式并不会阻碍引导效果,并提出了专家感知方法,可基于单个专家的输出来抑制拒绝行为。

JetBrains/Mellum2-12B-A2.5B-Thinking

Hugging Face Models Trending

JetBrains releases Mellum2-12B-A2.5B-Thinking, an open-source Mixture-of-Experts reasoning model with 131k context length, trained with RLVR for explicit chain-of-thought reasoning.