CAREBench:通过评估认知评价推理来检验LLM的情感理解能力

arXiv cs.AI 论文

摘要

介绍CAREBench,一个基于评价理论的基准测试,通过认知评价推理评估LLM的情感理解能力,表明当前模型在推理和积极情绪识别方面存在困难,尽管在某些下游任务上与人类表现相当。

arXiv:2605.17176v1 公告类型:新 摘要:情感理解是LLM有效与人类交互的核心能力,然而现有评估范式依赖于离散情感标签预测,未能捕捉情感产生背后的认知过程。基于评价理论,我们引入CAREBench——首个从第一人称和第三人称视角对真实世界叙事进行完整推理链标注的基准测试,涵盖评价推理、评价评分和多标签情感标注。我们提出了一个过程级评估框架,并围绕四个研究问题在六个LLM上进行了系统实验。我们发现,较强的模型在某些任务上达到或超越人类观察者,但在评价推理和积极情绪识别方面表现不足;各推理步骤的性能以及对评价干预的敏感性在不同模型间存在分离;当前模型尚未内化捕获人类主观异质性所需的机制。这些发现表明,下游情感预测指标可能高估了LLM的真实情感理解能力,而CAREBench为LLM情感认知能力的更具诊断性的评估提供了基础。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:40

# CAREBench:通过评估认知评价推理来评测LLM的情绪理解能力

来源:https://arxiv.org/html/2605.17176

Zhaoyue Sun
信息学系
伦敦国王学院
zhaoyue\.1\.sun@kcl\.ac\.uk
&Hainiu Xu
信息学系
伦敦国王学院
hainiu\.xu@kcl\.ac\.uk
&Andero Uusberg
心理学研究所
塔尔图大学
andero\.uusberg@ut\.ee
&James J\. Gross
心理学系
斯坦福大学
gross@stanford\.edu
&Petr Slovak
信息学系
伦敦国王学院
petr\.slovak@kcl\.ac\.uk
&Yulan He11footnotemark:1
信息学系
伦敦国王学院
阿兰·图灵研究所
yulan\.he@kcl\.ac\.uk

###### 摘要

情绪理解是LLM与人类有效互动的核心能力,然而现有的评估范式依赖于离散情绪标签预测,未能捕捉情绪产生背后的认知过程。基于评价理论,我们引入了CAREBench,这是第一个包含来自第一人称和第三人称视角的完整推理链注释的基准数据集,这些注释基于真实世界叙事,涵盖评价推理、评价评分和多标签情绪注释。我们提出了一个过程级评估框架,并围绕四个研究问题在六个LLM上进行了系统实验。我们发现,更强的模型在某些任务上匹配甚至超越了人类观察者,但在评价推理和积极情绪识别方面仍有不足;不同模型在推理链各步骤的表现以及对评价干预的敏感性上表现出分离性;当前模型尚未内化捕捉人类主观异质性所需的机制。这些发现表明,下游情绪预测指标可能高估了LLM的真实情绪理解能力,而CAREBench为更诊断性地评估LLM的情感认知能力提供了基础。

## 1 引言

情绪理解是基于大型语言模型(LLM)构建的AI系统在情感计算、人机交互和心理健康支持中的一项基本能力。然而,由于人类情绪激发、体验和表达的复杂性,评估这一能力仍然具有挑战性。大多数先前工作通过离散情绪标签预测来评估情绪理解。然而,这未能捕捉现实世界情绪现象的丰富性Bonard and Cortal (2024 (https://arxiv.org/html/2605.17176#bib.bib14))。为解决这一局限性,近期工作转向了心理学的情绪理论。其中,评价理论认为情绪源于个体对事件在多个维度(如目标相关性和应对潜能)上的主观评估,为评估情绪理解提供了结构化且可解释的表示Scherer (1999 (https://arxiv.org/html/2605.17176#bib.bib15))。在此视角下,近期研究引入了基于评价的数据集,以检验LLM是否具备超越标签预测的认知情绪理解能力Troianoet al. (2023 (https://arxiv.org/html/2605.17176#bib.bib1)); Liuet al. (2025 (https://arxiv.org/html/2605.17176#bib.bib4)); Bhattacharyyaet al. (2026 (https://arxiv.org/html/2605.17176#bib.bib13))。然而,现有的基于评价的数据集存在三个关键局限。第一,它们主要将评价维度评分视为认知评价的唯一表示。然而,评价的很大一部分涉及对心理状态(如信念和欲望)的推理,而评价评分仅反映其结果。如果没有显式建模这一推理过程,就不清楚模型是否真正理解体验者的心理状态,还是仅仅学习了从情境到评分的浅层映射。第二,大多数数据集依赖单一情绪类别标签,而现实世界的情感体验通常是混合的,涉及多种共现情绪;因此,单一标签无法捕捉这种丰富性。第三,大多数数据集仅收集第三人称注释,难以考察体验者与观察者之间的视角差异如何系统性地影响情绪判断。虽然Crowd-Envent数据集Troianoet al. (2023 (https://arxiv.org/html/2605.17176#bib.bib1))包含了第一人称和第三人称视角,但它包含非常简短的情境描述(平均20个词),并且仅提供评价维度评分。因此,它无法捕捉注释者潜在评价推理过程中的变化。

参见图注
图1:数据注释流程概览。

为弥补这些空白,我们构建了CAREBench,这是一个旨在评估情绪理解中认知评价推理的基准数据集,具有三个关键特征(图1 (https://arxiv.org/html/2605.17176#S1.F1))。首先,我们显式注释了评价的推理过程。具体地,我们招募注释者提供真实生活的情感叙事(平均95个词),随后按顺序收集三个注释层:针对五个核心评价维度的开放式推理文本、跨22个子维度的层级评价评分,以及情绪注释。这一设计支持构建情境→推理→评价→情绪的推理链,使得能够观察评价的心理状态层、分析其对细粒度评价评分的影响,并在过程层面评估LLM的情绪理解正确性。在评价评分之前探查心理状态也有助于构建注释过程本身,确保评分基于显式推理而非直觉印象。据我们所知,现有数据集都没有在评价注释之前引出心理状态,无论是第一人称还是第三人称设置。第二,对于情绪注释,我们不将情绪表示为单个离散标签,而是允许带强度的多标签情绪注释。这支持对评价-情绪映射进行多对多分析,并更忠实地建模复杂的现实世界情绪反应。此外,我们提供了来自第一人称体验者和多个第三人称观察者的完整推理链注释,从而能够直接比较LLM与两个视角,并定位整个过程中的主观异质性。还收集了注释者的人口统计和人格特质以支持主观性分析。基于此数据集,我们对六个LLM进行了系统评估,围绕四个逐步结构化的研究问题展开:模型在每个推理链步骤上的表现如何,注入评价推理是否有助于下游预测,模型是否对结构化评价干预表现出方向敏感性,以及它们是否能捕捉人类评价判断的分布异质性。我们的主要发现是:(1)尽管更强的模型在下游任务上取得了有竞争力的表现,但评价推理能力仍然有限,且积极情绪识别普遍具有挑战性;(2)不同模型在推理链各步骤的能力是可分离的,上游优势并不能一致地转移到下游;(3)情绪预测性能与对评价干预的敏感性并不完全一致,表明某些模型依赖联想而非基于评价的推理;(4)当前模型尚未内化捕捉主观异质性所需的机制。本研究的主要贡献如下:

- **数据集**。我们引入了CAREBench,这是一个用于评估LLM情绪理解的新基准数据集,提供了现有数据集所缺乏的关于显式评价推理、多情绪共现和双视角情绪理解的数据。
- **评估框架**。我们提出了一个过程级评估框架,覆盖完整的情境→推理→评价→情绪推理链,超越了现有工作中的单步骤、单视角评估范式。该框架暴露了仅依赖下游情绪预测性能来评估LLM情绪理解的盲点,为更可靠地评估LLM的情感认知能力提供了方法论支持。
- **实证发现**。通过对六个LLM的系统评估,我们为全面诊断当前LLM的情绪理解能力提供了实证基础,揭示了现有评估范式在区分表面预测性能与真实评价理解方面的不足,这对未来构建更具认知可解释性的情感模型具有直接启示。

## 2 CAREBench数据集

### 2.1 数据收集过程

评价理论模型将情绪生成描述为一个多阶段顺序过程,涵盖从情境建构到评价再到情绪反应的完整认知链Schereret al. (2001 (https://arxiv.org/html/2605.17176#bib.bib16)); Marsella and Gratch (2009 (https://arxiv.org/html/2605.17176#bib.bib17))。基于这一理论视角,我们收集了覆盖推理链s→r→a→e的注释,其中s表示情境叙事,r表示开放式评价推理文本,a表示评价评分向量,e表示情绪注释。与心理学专家合作,我们设计了一个两阶段数据收集方案,通过Prolific平台招募参与者。在第一阶段,参与者提供第一人称情感叙事并完成自注释;在第二阶段,独立的第三方注释者阅读这些叙事并从观察者角度完成注释。

##### 阶段1:第一人称叙事与注释

在阶段1中,每位参与者被要求回忆并描述一个近期发生的具有情感意义的事件。为确保内容丰富性同时减少参与者负担,我们采用了微叙事框架Skeggset al. (2025 (https://arxiv.org/html/2605.17176#bib.bib22)),使用LLM(GPT-4o)协助参与者撰写叙事。具体地,参与者与AI聊天机器人进行结构化对话,回答一系列引导性问题;然后LLM通过将参与者用自己的话回答的内容进行最小化改写来组合成最终文本,参与者随后进行审查并在必要时进行修正。参与者随后完成一个三层注释任务:(1)评价推理(r):针对五个核心评价维度(相关性、确定性、一致性、可控性和归因)的问题进行开放式回答,也通过微叙事框架完成;(2)评价评分(a∈R^22):通过在五个核心维度上进行层级扩展得到的22个评价项目上的5点Likert量表评分;(3)情绪注释(e):参与者对积极和消极情绪强度e_i^+和e_i^-在7点Likert量表上评分,并从预定义标签集L中选择积极和消极情绪标签e_l^+和e_l^-,允许多标签以及积极和消极情绪共存。此外,每位参与者完成了大五人格问卷-10(BFI-10)Rammstedt and John (2007 (https://arxiv.org/html/2605.17176#bib.bib21)),该问卷连同Prolific提供的人口统计信息,用于表征每位注释者的人物画像。

##### 阶段2:第三人称注释

在阶段2中,我们旨在收集每条叙事的多个第三人称注释,以捕捉个体间在情绪解释上的差异;由于成本限制,最终对500条第一人称叙事子集收集了5条注释。对于每条叙事,注释者仅阅读叙事文本,无法访问第一人称评价回答或评分,并独立完成相同的三层注释任务以及BFI-10和人口统计信息。总支出约为9,000英镑,包括每条第一人称注释4.20英镑、每条第三人称注释1.68英镑(均包含平台费用),以及试点研究和API成本。完整的注释模式和数据收集程序的其他细节见附录A.2 (https://arxiv.org/html/2605.17176#A1.SS2)。

### 2.2 数据统计

表1:数据集统计信息。“Avg Len”以token为单位;“+ Apr”包括核心评价推理;“Avg lab”表示平均情绪标签数量。“Pos./Neg. Samples”表示带有积极/消极情绪的样本。

| 视角 | 数量 | 故事长度(tok.) | +评价推理长度(tok.) | 积极样本数 | 平均标签数 | 消极样本数 | 平均标签数 |
|------|------|-----------------|----------------------|------------|------------|------------|------------|
| 1st  | 1,000| 95.1            | 168.5                | 456        | 4.05       | 577        | 3.43       |
| 3rd  | 2,500| —               | 160.6                | 1,232      | 3.38       | 1,932      | 3.17       |

![[无标题图片]](https://arxiv.org/html/2605.17176v1/x1.png)
图2:来自表A2 (https://arxiv.org/html/2605.17176#A1.T2)的22个评价维度上的Likert量表回答分布。

图3:情绪注释统计。(a) 强度得分分布。(b) 每个样本的情绪标签数量。(c) 积极情绪类别分布。(d) 消极情绪类别分布。

参见图注

数据集包含1,000个第一人称注释样本,其中500个样本还由5名独立注释者从第三人称视角进行注释,总共产生2,500条第三人称注释记录(表1 (https://arxiv.org/html/2605.17176#S2.T1))。平均故事长度为95.1个token;包含核心评价推理文本后,平均长度达到约160个token,且第三人称注释者产生的推理文本略短于第一人称注释者。在评价评分分布方面(图2 (https://arxiv.org/html/2605.17176#S2.F2)),两组注释者表现出大致相似的模式,尽管在某些维度上出现了显著的极性偏移。例如,第三人称注释者倾向于高估A2(*相关性.紧急性*)上的事件紧迫性。在数据集层面,大多数评价维度表现出相对平衡的评分分布,而少数维度明显偏向一端:A1(*相关性.总体*)一致较高,表明大多数情境被认为与主角高度相关,而A17(*控制.替代性*)一致较低,反映了普遍认为他人不太可能介入当前情境的看法。关于情绪注释(表1 (https://arxiv.org/html/2605.17176#S2.T1)和图3 (https://arxiv.org/html/2605.17176#S2.F3)),消极情绪样本数量大约是积极情绪样本的1.6倍,反映了情感叙事的自然偏差。标签共现很普遍,大多数样本带有1-4个标签;积极样本的平均标签数多于消极样本,表明积极情境更容易引发混合情绪。第三人称观察者总体上分配的标签较少,其对消极情绪的评分强度略低于第一人称体验者,而积极情绪强度分布更为分散。高频情绪类别在不同视角间高度一致,但第三人称的普遍性在绝大多数类别中低于第一人称,仅有少数类别例外。

相似文章

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。

情绪会影响大语言模型的道德判断吗?

arXiv cs.CL

辛辛那提大学的研究人员发现,在提示中加入积极或消极情绪可在约20%的情况下翻转LLM对道德可接受性的判断,揭示出模型与人类在情绪驱动对齐上的差距。

元认知监测电池:LLM自我监测的跨域基准

arXiv cs.CL

一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。