超越情感分类:文本情感强度评估的生成式框架

arXiv cs.CL 论文

摘要

本文提出了一种用于情感强度评估的生成式框架,将离散分类转变为0-100的连续评分。该框架在金融等领域展现了优越的性能和泛化能力。

arXiv:2605.16613v1 公告类型:新 摘要:我们引入了一种新颖的情感建模方法,将关注点从识别转向评估,以解决离散分类在金融等应用领域中的局限性。通过构建情感强度得分数据集,并对开源权重生成式语言模型进行微调,使其输出0到100的连续值,我们展示了一个更具表现力和泛化能力的情感分析框架。我们的结果不仅超越了分类基线,还揭示了令人惊讶的泛化能力以及向情感和唤醒度等相关构念的迁移效应。本工作通过引入情感强度评估作为分类的替代方案,促进了自然语言处理的跨学科重新语境化,并主张这种转变更符合那些情感内容程度对解释和决策至关重要的领域(如金融)的需求。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:34

# 超越情感分类:文本情感强度评估的生成式框架
来源:https://arxiv.org/html/2605.16613
Dasol Kim Office of Financial Research dasolkim@gmail\.comWilliam N\. Goetzmann Yale School of Management william\.goetzmann@yale\.edu

###### 摘要

我们提出了一种新颖的情感建模方法,将重点从识别转向评估,以解决分类方法在金融等应用领域的局限性。通过构建情感强度评分数据集,并对开放权重生成式语言模型进行微调,使其输出0–100范围内的连续值,我们展示了一个更具表现力、更具泛化能力的情感与情绪分析框架。我们的研究结果不仅超越了分类基线,还揭示了令人惊讶的泛化能力以及对情感和唤醒度等相关构念的迁移效应。本文通过引入情感强度评估作为分类的替代方案,为NLP的跨学科重新语境化做出贡献,并论证这一转变更符合金融等领域的需求——在这些领域中,情感内容的*程度*是解释和决策的核心。

## 1 引言

尽管情感NLP领域已有数十年的研究,但大多数现有研究仍将情感建模视为分类问题:给定一段文本,预测存在哪些类别情感。诸如GoEmotions (Demszky等人,2020 (https://arxiv.org/html/2605.16613#bib.bib1))、DailyDialog (Li等人,2017 (https://arxiv.org/html/2605.16613#bib.bib16)) 和 EmotionLines (Chen等人,2018 (https://arxiv.org/html/2605.16613#bib.bib17)) 等基准数据集通过用离散情感标签标注样本并支持多标签分类流程,强化了这一框架。虽然这种框架在检测任务中有效,但它模糊了每种情感*强度*的关键信息——例如,给定文本中愤怒或喜悦的表达强烈程度。

这种局限性在下游应用中尤为突出,这些应用中的情感信号是作为输入变量而非输出变量——例如在行为科学、心理学或金融领域——研究人员旨在量化话语随时间变化的情感基调 (Griffith等人,2020 (https://arxiv.org/html/2605.16613#bib.bib14); Shen等人,2023 (https://arxiv.org/html/2605.16613#bib.bib15); Taffler等人,2024 (https://arxiv.org/html/2605.16613#bib.bib13); Breaban and Noussair,2018 (https://arxiv.org/html/2605.16613#bib.bib11); Goetzmann等人,2024 (https://arxiv.org/html/2605.16613#bib.bib12))。在这些场景中,判断是否存在恐惧不如在连续尺度上估计其幅度有用。

此外,情感景观超越了离散情感:诸如情感环状模型 (Russell,1980 (https://arxiv.org/html/2605.16613#bib.bib2)) 等心理学理论强调,人类情感沿着*效价*(积极–消极评价)和*唤醒度*(激活强度)等维度运作,而这些维度在NLP系统中很少被联合建模。

大多数建模方法适应这一更广泛框架的速度缓慢。仅编码器架构(如RoBERTa和BERT)主导着情感NLP,但它们通常针对分类目标进行微调,缺乏模拟分级情感强度的表示灵活性。相比之下,生成式语言模型(LLM)展现出更丰富、潜在的情感理解,但尚未被广泛适配以产生结构化的、与人类对齐的强度分数,这些分数能够覆盖情感意义的全谱系——即情感类别、效价和唤醒度。

在本文中,我们提出一种情感建模的新范式:通过微调生成式语言模型进行情感强度评估。我们构建了一个人工标注的文本数据集,其中包含一组固定情感、效价和唤醒度的0–100强度分数。利用这些数据,我们通过LoRA对两个开放权重生成式LLM——Mistral-7B和Mistral-24B——进行微调,以学习一个联合建模情感幅度、效价和唤醒度的评分函数。这一统一框架使得模型能够将这些情感信号视为连贯情感状态的相互依赖维度,而非孤立变量,从而提高可解释性并与心理学理论对齐。我们的结果表明:

- • 狭窄的、仅编码器的模型(例如RoBERTa分类器)*无法捕捉情感强度*,尽管它们是常见情感分类模型的基础;
- • 微调的生成式模型在情感强度预测上*显著优于*预训练LLM和分类基线;
- • 一旦微调完成,这些模型展现出对*未见情感的泛化能力*,即使在没有标注数据的情况下也能进行评估——尤其在模型规模足够大时;
- • 仅基于离散情感强度训练的模型也能改善*效价和唤醒度*的预测,尽管在这些维度上没有直接监督。

## 2 相关工作

### 2.1 情感分类与GoEmotions

情感NLP中绝大多数基准数据集将情感建模视为分类问题。诸如GoEmotions (Demszky等人,2020 (https://arxiv.org/html/2605.16613#bib.bib1))、DailyDialog (Li等人,2017 (https://arxiv.org/html/2605.16613#bib.bib16))、EmotionLines (Chen等人,2018 (https://arxiv.org/html/2605.16613#bib.bib17))、MELD (Poria等人,2019 (https://arxiv.org/html/2605.16613#bib.bib18)) 和 TEC (Mohammad,2012 (https://arxiv.org/html/2605.16613#bib.bib19)) 等资源都将任务定义为识别给定样本中的一个或多个类别情感。这些数据集通常与仅编码器模型(如RoBERTa或BERT)配对,构成了多标签分类流程的基础,用于预测特定情感的存在与否。

即便更复杂的基准——如EmoBench (Sabour等人,2024 (https://arxiv.org/html/2605.16613#bib.bib8))——也将此框架扩展到LLM评估,通过情感推理和反应选择等任务探测模型的情感能力。然而,这些任务的核心仍然是基于识别的,侧重于选择最突出的情感或适当的移情行动,而非量化多种情感同时表达的强度。

### 2.2 情感强度建模

情感强度建模的努力通常集中于单情感回归或有序分类。SemEval-2007任务14 (Strapparava and Mihalcea,2007 (https://arxiv.org/html/2605.16613#bib.bib5)) 是一个与我们目标紧密相关的早期基准:它为每条新闻标题标注了六种固定情感(愤怒、厌恶、恐惧、喜悦、悲伤、惊讶)的0–100强度分数。然而,它没有包含唤醒度——情感环状模型的关键维度 (Russell,1980 (https://arxiv.org/html/2605.16613#bib.bib2)) ——并且使用了新闻标题这一体裁,可能缺乏对话或社交媒体文本中的情感表现力。

WASSA 2017 (Mohammad and Bravo-Marquez,2017 (https://arxiv.org/html/2605.16613#bib.bib3)) 将这项工作扩展到社交媒体,提供了针对四种情感标注强度(缩放至0–1)的推文。然而,每条推文仅标注了一种情感,无法进行多情感画像。SemEval-2018任务1 (Mohammad等人,2018 (https://arxiv.org/html/2605.16613#bib.bib4)) 增加了对效价回归和多标签分类的支持,但情感和效价分数仍被划分为独立子任务。唤醒度未被标注,限制了情感维度的覆盖范围。

EmoBank (Buechel and Hahn,2017 (https://arxiv.org/html/2605.16613#bib.bib6)) 通过提供超过10,000个句子的效价、唤醒度和优势度(VAD)评分,以及读者和作者视角的标注,解决了维度方面的问题。虽然这对连续情感建模很有价值,但它不包含每种情感的强度评分,限制了其在需要明确归因情感状态的应用中的实用性。

总之,先前的工作要么针对一组离散情感建模强度但忽略了唤醒度,要么建模了情感维度但未将其与情感特定幅度联系起来。大多数资源不支持在一致尺度上的多情感强度画像,并且唤醒度在细粒度情感建模中仍然代表性不足——尽管对于理解读者反应性和情感显著性至关重要。

### 2.3 用于情感分析的大型语言模型

大规模语言模型的兴起改变了情感计算的格局。流行的仅编码器模型(如RoBERTa)已使用GoEmotions (Demszky等人,2020 (https://arxiv.org/html/2605.16613#bib.bib1)) 在分类任务上进行了微调,许多广泛部署的模型——例如 samLowe/roberta-base-go_emotions——扩展了这些范式,但未解决强度问题。最近的工作使用生成式语言模型在零样本或少样本设置中评估情感内容,但输出通常限于情感标签或排序,而非校准的强度值。

EmoLLMs (Liu等人,2024 (https://arxiv.org/html/2605.16613#bib.bib9)) 代表了通过指令微调LLM统一分类和回归的更全面尝试。作者引入了AAID(情感分析指令数据集)和AEB(情感评估基准),涵盖了情感强度回归、有序分类、效价回归和多标签情感分类等任务。这些数据集跨越多种情感构念,模型经过微调以遵循提示,产生类别或数值输出。然而,每个实例每次仅针对一个情感变量——要么是单情感,要么是维度评分。模型不会在一次前向过程中生成跨多种情感和维度的完整情感画像,且分数经过0–100校准。

因此,尽管先前工作已从分类分类发展到标量回归并结合了维度情感,但缺乏一个统一的机制来生成基于人类标注尺度的可解释、细粒度的情感向量。我们的方法通过使用生成式LLM微调以同时输出一组固定情感的校准分数以及效价和唤醒度,解决了这一差距。

## 3 数据集构建

为了支持细粒度情感强度建模,我们构建了一个包含1,177个短对话短语的新数据集,这些短语在十个情感维度上进行了标注:八种情感类别(愤怒、焦虑、恐惧、悲伤、厌恶、乐观、兴奋、惊讶)、效价(–100到100)和唤醒度(0到100)。

#### 短语选择。

候选短语通过ChatGPT程序化生成,以反映各种情感状态下的常见会话话语。初始池包含超过2,000个句子,经过人工筛选,最终选出1,177个独特且情感多样化的示例用于评分。

#### 标注过程。

两名以英语为母语的美国标注者通过Upwork雇佣,并通过Zoom进行同步培训,使用详细的评分指南(见附录A (https://arxiv.org/html/2605.16613#A1))。每个句子由两名标注者在所有十个情感维度上使用连续量表独立评分。对于每个维度,最终分数计算为两位标注者评分的平均值。

#### 标注量表。

情感维度采用0–100量表评分,0表示该情感完全不存在,100表示其最强表达。效价采用–100(最消极)到+100(最积极)量表,而唤醒度反映强度/激活程度,与效价无关(0 = 平静,100 = 高度激活)。

#### 质量控制。

标注者经过验证为英语母语者,并通过Zoom培训确保对评分指南的共同理解。由于每个样本获得两个独立标注,我们在下方报告了标注者之间的一致性统计。

该数据集旨在实现沿分类(特定情感)和维度(效价/唤醒度)轴的结构化情感建模,解决了先前工作中要么忽略强度、要么以碎片化的单情感格式建模强度的关键局限性。

## 4 方法论

### 4.1 问题形式化

我们将*情感强度评估*形式化为一个结构化文本生成任务。给定输入文本\(x\)和一组固定的\(k\)种情感\(\{e_1,\ldots,e_k\}\),模型生成实值预测\(\hat{y}=\{\hat{y}_{e_1},\ldots,\hat{y}_{e_k}\}\),其中\(\hat{y}_{e_i}\in[0,100]\)表示情感\(e_i\)在\(x\)中的预测强度。此外,模型输出一个*效价*分数\(\hat{v}\in[-100,100]\)和一个*唤醒度*分数\(\hat{a}\in[0,100]\),遵循维度情感理论。

形式上,模型学习一个映射:

\(f: x \rightarrow \texttt{JSON}(\hat{y}_{e_1},\ldots,\hat{y}_{e_k},\hat{v},\hat{a})\)

这种形式化允许在单次推理步骤中进行多情感强度画像——与将情感视为独立二元标签的先前分类框架不同。

作为基线,我们还为每种情感训练了独立的RoBERTa模型,使用标量回归头。这些模型不是多任务学习器,而是独立针对每种情感进行优化,以代表一个强大的狭窄模型基准。

### 4.2 模型架构与提示格式

我们微调两个开放权重的指令微调LLM:Mistral-7B-Instruct-v0.1 和 Mistral-Small-24B-Instruct-2501。两个模型均使用低秩适应(LoRA)进行适配,秩\(r=16\),\(\alpha=32\),dropout = 0.1。LoRA层应用于注意力机制的`q_proj`和`v_proj`组件。我们还使用`bitsandbytes`后端应用4位量化以实现高效微调。

训练和推理期间使用的提示遵循指令格式。模型被要求对提供的列表中的每种情感进行评分,并返回JSON格式的输出。完整提示文本见附录B (https://arxiv.org/html/2605.16613#A2)。

输出使用Hugging Face `transformers`包进行解析,解码通过`AutoTokenizer`处理,并后处理为JSON键值对。

### 4.3 训练细节

我们在1,177个标注样本上微调每个模型,每个样本包含八种情感的强度分数,以及效价和唤醒度。数据分为训练集(706)、验证集(176)和测试集(295)。

训练在三块NVIDIA A100 80GB GPU上进行,批量大小为16。我们使用AdamW优化器,学习率为\(5\times 10^{-5}\),训练10个epoch。每个epoch后,我们在验证集上解码预测,并计算所有维度的平均一致性相关系数(CCC)。选择验证集上平均CCC最高的检查点用于最终评估。

为了评估泛化能力,我们还进行了留一情感评估,其中每个模型在\(k-1\)种情感上训练,并在被剔除的情感上评估。重要的是,被剔除的情感也不包含在用于选择检查点的验证集中,以确保没有信息泄露。

生成式模型的损失函数是标准的因果语言建模损失(交叉熵),将强度生成视为下一个词预测任务。对于基于RoBERTa的回归器,我们使用均方误差(MSE)损失。

相似文章