文本嵌入中情感线索的跨心理学情绪理论比较研究

arXiv cs.CL 2026/06/30 04:00 论文

摘要

本文评估了十二种最新文本编码器在三种心理学情绪理论中编码情感线索的能力，发现指令感知的开源权重编码器在单词级别上达到或超过专有编码器，而任务微调嵌入在句子级别上更优。

arXiv:2606.29068v1 公告类型：新摘要：文本编码器因其在自然语言处理中的实用性而闻名，它们能够高效地将输入压缩为密集向量，同时保留语义。这些模型已应用于情感计算，特别是帮助解决情感分析和情绪识别任务。尽管如此，现代文本编码器生成的潜在表征在多大程度上捕捉了明确定义的情感心理学理论仍不清楚。在这项工作中，我们通过将生成的嵌入作为输入特征，用于解决三个既定情绪框架下的回归和分类任务，使用单词级和句子级数据，探究了十二种最新发布的文本编码器的情感能力。此外，我们应用了一种语义数据泄露预防技术，以提高单词级评估的鲁棒性。我们的主要发现表明，在单词级评估时，最新的指令感知开源权重编码器的潜在流形包含与专有编码器相当甚至更多的情感信息。相比之下，任务微调和专有编码器的嵌入在句子级情感分类中获得了最高分数。此外，还提供了对潜在表征及其编码情感线索的定性分析。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:30

# 基于心理情感理论的文本嵌入中情感线索的比较研究

来源: https://arxiv.org/html/2606.29068  
11E-mail: fabio1\.ciani@mail\.polimi\.it  
22E-mail: \{harald\.schweiger,markus\.schedl\}@jku\.at  
33E-mail: emiliaparada\.cabaleiro@hfm\-nuernberg\.de  
44E-mail: 无

###### 摘要

文本编码器因其在自然语言处理中的实用性而闻名，能够高效地将输入压缩为稠密向量，同时保留语义。这些模型已被应用于情感计算，特别是帮助解决情感分析和情感识别任务。然而，现代文本编码器生成的潜在表示在多大程度上捕捉了定义明确的心理情感理论，这一点仍不清楚。在本研究中，我们通过将生成的嵌入作为输入特征，用于解决三个既定情感框架下的回归和分类任务（使用词级和句子级数据），来探究十二个最近发布的文本编码器的情感能力。此外，我们应用了一种语义数据泄露预防技术，以提高词级评估的鲁棒性。我们的主要发现是：在词级评估中，最新的指令感知开源权重编码器的潜在流形包含了与专有编码器相当甚至更多的情感信息。相反，任务微调型和专有编码器的嵌入在句子级情感分类中取得了最高分。此外，我们还对潜在表示及其编码的情感线索进行了定性分析。

## 1 引言

文本编码器的出现改变了将文本内容转换为数值表示（即嵌入）的方式，这些嵌入现已成为多种任务（如语义相似度、检索和重排序）的核心组成部分\[8 (https://arxiv.org/html/2606.29068#bib.bib8)\]。它们也被证明在基于文本的情感分析中很有价值，例如情感分类\[11 (https://arxiv.org/html/2606.29068#bib.bib11)\]或愉悦-唤醒回归\[20 (https://arxiv.org/html/2606.29068#bib.bib20)\]。为解决这些任务，诸如 BERT\[12 (https://arxiv.org/html/2606.29068#bib.bib12),42 (https://arxiv.org/html/2606.29068#bib.bib42)\] 等模型已在不同配置下进行了测试，主要涉及端到端微调。此后，文本编码器的性能通过包括基于指令的查询和高级训练方案在内的各种技术逐步提升\[58 (https://arxiv.org/html/2606.29068#bib.bib58)\]。

尽管有相关的前期工作，但将文本编码器作为零样本特征提取器用于情感识别任务仍然探索不足，尤其是针对最新的最先进模型和指令感知模型。此外，尚不确定这些模型诱导的潜在流形是否通过足够编码的情感信息包含了心理学中已确立的情感框架。

为填补这一空白，我们的分析比较了最近发布的文本编码器（未经预先微调），跨越不同的情感理论，即 Mehrabian 和 Russell 的愉悦-唤醒-控制模型\[27 (https://arxiv.org/html/2606.29068#bib.bib27)\]、Plutchik 的情感模型\[40 (https://arxiv.org/html/2606.29068#bib.bib40)\]以及 Ekman 的“六大基本情感”\[13 (https://arxiv.org/html/2606.29068#bib.bib13)\]。我们使用了两个结构化词典和一个句子级数据集，即 NRC-VAD\[33 (https://arxiv.org/html/2606.29068#bib.bib33)\]、NRC-EIL\[32 (https://arxiv.org/html/2606.29068#bib.bib31)\] 和 GoEmotions\[11 (https://arxiv.org/html/2606.29068#bib.bib11)\]，它们分别对应每种情感理论，同时采用了一种新技术来限制数据划分之间的泄露。因此，我们计算并冻结了嵌入，将其作为四个下游预测器的输入特征，随后根据它们的情感线索进行评估。定量结果与定性可视化分析共同回答了以下研究问题。

**RQ1** 文本编码器的潜在流形在多大程度上包含了情感线索？

**RQ2** 指令感知文本编码器是否比任务微调模型或没有明确提示支持的模型更善于生成优化嵌入？

**RQ3** 专有模型是否优于开源权重模型？

**RQ4** 模型性能是否因所选情感框架和下游预测器的不同而变化？

本文结构如下。第2节 (https://arxiv.org/html/2606.29068#S2) 介绍了情感理论和情感语言处理的背景。第3节 (https://arxiv.org/html/2606.29068#S3) 描述了实验设置，包括数据集、编码器和预测器。最后，第4节 (https://arxiv.org/html/2606.29068#S4) 报告结果，第5节 (https://arxiv.org/html/2606.29068#S5) 总结全文。††我们的代码可在以下仓库公开获取：https://github.com/hcai-mms/affective_embeddings。

## 2 相关工作

### 2.1 情感理论

心理学领域的扎实研究产生了多种从分类和感知角度解释人类情感的框架。最早的分类模型之一由 Ekman 提出，其中所谓的“六大基本情感”（愤怒、厌恶、恐惧、快乐、悲伤、惊讶）是从面部表情中识别出来的，被认为具有生物学编码且跨文化一致\[13 (https://arxiv.org/html/2606.29068#bib.bib13)\]。

另一个值得注意的理论是 Russell 的环状模型，它将情感表示在一个二维空间中，水平和垂直轴分别测量愉悦和唤醒。愉悦捕捉从消极到积极的快乐程度，而唤醒反映从低到高的能量水平\[43 (https://arxiv.org/html/2606.29068#bib.bib43)\]。这之前有 Mehrabian 的 PAD（愉悦-唤醒-控制）情感模型，其中还包含第三个双极维度，用于量化诱发的控制或顺从感\[27 (https://arxiv.org/html/2606.29068#bib.bib27)\]。

另一个与情感计算相关的框架是 Plutchik 提出的，他设计了一个混合分类-维度模型，与 Russell 的理论有相似之处，其中空间邻近性与情感相似性相关。八种基本情感（喜悦、信任、恐惧、惊讶、悲伤、厌恶、愤怒、期待）被排列在对应不同强度的同心圆中，即一个被划分为扇区的圆锥体，并且可以将相邻和相反的情感混合以形成复合心境对\[40 (https://arxiv.org/html/2606.29068#bib.bib40)\].

### 2.2 情感语言处理

从文本内容中提取情感的早期技术借鉴了语言学中的分布假设\[19 (https://arxiv.org/html/2606.29068#bib.bib19),17 (https://arxiv.org/html/2606.29068#bib.bib17)\]，包括潜在语义分析\[3 (https://arxiv.org/html/2606.29068#bib.bib3)\]，这是一种学习压缩表示的矩阵分解过程，后来演变为流行的自监督词嵌入\[28 (https://arxiv.org/html/2606.29068#bib.bib28),29 (https://arxiv.org/html/2606.29068#bib.bib29),39 (https://arxiv.org/html/2606.29068#bib.bib39),4 (https://arxiv.org/html/2606.29068#bib.bib4)\].

词向量通过将监督情感上下文纳入目标函数进行从头重新训练\[49 (https://arxiv.org/html/2606.29068#bib.bib49)\]。Faruqui 等人\[15 (https://arxiv.org/html/2606.29068#bib.bib15)\]和 Mrksic 等人\[34 (https://arxiv.org/html/2606.29068#bib.bib34)\]设计了一种针对词汇关系和约束调整预训练词向量的方法，Yu 等人\[55 (https://arxiv.org/html/2606.29068#bib.bib55)\]和 Seyeditabari 等人\[44 (https://arxiv.org/html/2606.29068#bib.bib45)\]将其应用于情感数据集，以缓解与通用分布嵌入相关的向量相似性和算术方面的已报告问题\[45 (https://arxiv.org/html/2606.29068#bib.bib44)\]。基于 Transformer 架构的显著扩展已在词级\[9 (https://arxiv.org/html/2606.29068#bib.bib9),10 (https://arxiv.org/html/2606.29068#bib.bib10)\]和句子级\[46 (https://arxiv.org/html/2606.29068#bib.bib46)\]提出。注意力机制也被调整为通过组合来自知识库的向量和数据来丰富学习到的表示\[48 (https://arxiv.org/html/2606.29068#bib.bib48)\].

更广泛地，人们质疑语言模型（LM）是否能有效理解情感的多面性。Lee 等人\[22 (https://arxiv.org/html/2606.29068#bib.bib23)\]分离了专注于处理特定情感来源模式的低级子组件，而 Reichman 等人\[41 (https://arxiv.org/html/2606.29068#bib.bib41)\]则继续分析，强调了神经架构内由一组专门神经元和连接实现的复杂冗余方案的存在。在更高层面上，通过评估 LM 的内部表示是否可以被精炼以与既定情感理论对齐，研究了 LM 的神经心理学\[24 (https://arxiv.org/html/2606.29068#bib.bib22)\]。还观察到，较大的基础模型往往比较小的对应模型更准确地展现出情感智能\[53 (https://arxiv.org/html/2606.29068#bib.bib52)\]，并构建越来越详细的分层分类法来组织情感\[57 (https://arxiv.org/html/2606.29068#bib.bib57)\].

最后，通过带注释的文本内容（即具有一系列指定标签或数值的数据）将情感模型中的情感表达与另一理论框架中的定义联系起来，这要么直接桥接分类和维度家族\[38 (https://arxiv.org/html/2606.29068#bib.bib38)\]，要么通过学习一个无关的中间表示空间进行转换\[5 (https://arxiv.org/html/2606.29068#bib.bib5)\].

## 3 方法论

为了测试文本编码器捕捉情感线索的能力，我们在三个基于不同心理情感框架的语料库上进行了评估（见第 3.1 节 (https://arxiv.org/html/2606.29068#S3.SS1)）。我们倾向于使用结构化词典，即 NRC-VAD\[31 (https://arxiv.org/html/2606.29068#bib.bib32),33 (https://arxiv.org/html/2606.29068#bib.bib33)\] 和 NRC-EIL\[32 (https://arxiv.org/html/2606.29068#bib.bib31)\]，以减少句法歧义，并更好地匹配相应理论被研究时的条件。此外，GoEmotions\[11 (https://arxiv.org/html/2606.29068#bib.bib11)\] 提供了一个更保守的视角，因为它包含完整的句子，而不是单个或多个单词的样本。

图1：演示拟合和评估过程的流程图。对于每个数据集，所有嵌入都计算一次并冻结（蓝色部分）。为简化起见，其余控制流仅用一个实验展示（黄色和紫色部分），即使用语义泄露预防并结合 KaLM v2 作为文本编码器的 NRC-VAD 回归任务。

我们评估了十二个文本编码器（见第 3.2 节 (https://arxiv.org/html/2606.29068#S3.SS2)），使用两步过程。首先，计算并冻结数据集中所有单词和句子的嵌入。其次，训练一组下游预测器并调优其超参数，以生成的潜在特征作为输入，评估它们在相应回归和分类任务上的预测性能（见图 1 (https://arxiv.org/html/2606.29068#S3.F1)）。我们选择了四个具有不同特征的预测器来映射嵌入和情感，从而可以测试情感线索是否线性可访问或需要通过非线性变换获得（见第 3.3 节 (https://arxiv.org/html/2606.29068#S3.SS3)）。

为了更准确地衡量结构化词典上的真实泛化能力，我们应用了两种技术来防止数据划分间的形态和语义泄露，从而减少对依赖密切相关的词汇项构建解决方案的预测模型的评估偏差。本文主体部分给出的结果仅关注语义感知的分割策略，因为它本质上偏差较小。更全面的摘要（包括使用形态感知方法获得的结果）在附录中报告（见附录 0.A (https://arxiv.org/html/2606.29068#Pt0.A1) 和 0.D (https://arxiv.org/html/2606.29068#Pt0.A4)）。

### 3.1 情感数据集

所有语料库均免费提供且为英文。它们的输入粒度各不相同（单词、多词短语和句子级），输出格式也各异（离散和连续）。

**NRC-VAD**\[31 (https://arxiv.org/html/2606.29068#bib.bib32),33 (https://arxiv.org/html/2606.29068#bib.bib33)\] 包含约 55k 个单词和多词短语样本，通过众包方式用区间 \[-1,1\] 内的实数值愉悦、唤醒和支配度进行注释，遵循 Mehrabian 的理论\[27 (https://arxiv.org/html/2606.29068#bib.bib27)\].

**NRC-EIL**\[32 (https://arxiv.org/html/2606.29068#bib.bib31)\] 包含近 6k 个单词，情感强度在区间 \[0,1\] 内，符合 Plutchik 的模型\[40 (https://arxiv.org/html/2606.29068#bib.bib40)\]. 该集合的性质使其既适合作为回归任务也适合作为分类任务，因为 62.4% 的条目被赋予单一情感，18.6% 有一对非零强度，其余词汇具有三种或更多情感。在我们的实验中，我们专注于实数值强度的回归。

**GoEmotions**\[11 (https://arxiv.org/html/2606.29068#bib.bib11)\] 包含超过 54k 条从 Reddit 爬取的评论，配以 27 个标签，并根据评分者间一致性进行过滤。该数据集提供了官方文档，将这些类别映射到与 Ekman 框架\[13 (https://arxiv.org/html/2606.29068#bib.bib13)\]一致的标签子集。在我们的评估中，我们将带标签的句子与这种投影相结合，获得一个具有 7 个类别的多标签分类数据集（6 个对应 Ekman 的情感类别，1 个对应中性类别），其中 91.2% 的样本只有一个类别，8.8% 至少有 2 个类别。

##### 划分策略

为了训练预测模型，每个数据集被划分为五折交叉验证和一个用于最终评估的保留测试集，比例为 80%/20%。鉴于 GoEmotions 有预定义的训练-开发-测试划分，我们将训练和开发划分合并，并应用分层抽样来平衡各折中的标签，而测试划分保持不变，以便与原始工作的评估进行比较。对于两个基于词典的数据集（即 NRC-VAD 和 NRC-EIL），我们使用了一种新颖的语义泄露预防技术，详情见下一段。

##### 泄露预防

随机训练-测试划分可能会过高估计泛化能力，因为形态学上或语义上过于相

相似文章

介绍文本和代码嵌入

OpenAI Blog

OpenAI 推出了新的嵌入 API 端点，可以将文本和代码转换为数值向量表示，用于语义搜索、聚类和分类任务。这些模型在标准基准测试上取得了最先进的效果，包括代码搜索性能相比之下提升了 20%。

通用嵌入与特定嵌入，哪种更好？非英语语言临床编码搜索的实证研究

arXiv cs.CL

本文研究了基于大型语言模型合成数据微调的紧凑型任务特定双编码器是否能在非英语语言的临床编码检索中超越通用嵌入，并在西班牙语基准测试CodiESP和DISTEMIST上取得了最先进的结果。

超越情感分类：文本情感强度评估的生成式框架

arXiv cs.CL

本文提出了一种用于情感强度评估的生成式框架，将离散分类转变为0-100的连续评分。该框架在金融等领域展现了优越的性能和泛化能力。

通过对比预训练的文本和代码嵌入

OpenAI Blog

# 通过对比预训练的文本和代码嵌入源：[https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/](https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/) ## 摘要文本嵌入是许多应用中的有用特征，例如语义搜索和计算文本相似性。以往的工作通常训练针对不同用例定制的模型，在数据集选择、训练目标和模型架构方面各不相同。在这

模型在哪里找到快乐？开源LLM中的情感向量

arXiv cs.CL

本文复现了开源权重大语言模型Apertus-8B和Gemma-4-E4B中'情感向量'的发现，表明价态几何结构在不同模型间可恢复，但层间出现时机存在差异。研究还发现唤醒编码对用于提取的故事语料库敏感。

相似文章

介绍文本和代码嵌入

通用嵌入与特定嵌入，哪种更好？非英语语言临床编码搜索的实证研究

超越情感分类：文本情感强度评估的生成式框架

通过对比预训练的文本和代码嵌入

模型在哪里找到快乐？开源LLM中的情感向量

提交意见反馈