EIBench:基于模拟器的基准测试与面向情感管理的回合信用强化学习

arXiv cs.CL 论文

摘要

EIBench 引入了一个基于模拟器的交互式情感管理基准测试,通过每轮用户状态反馈实现评估与训练。作者提出了 CTC-GRPO,一种强化学习方法,在多个基准测试上提升了情感管理表现。

arXiv:2606.15532v1 公告类型:新 摘要:大型语言模型(LLM)中的情商(EI)通常通过静态理解任务或单轮对话生成来评估。然而,情感管理是交互式的:一个好的模型不仅应识别用户的情绪,还应通过多轮对话改善用户的情绪和关系状态。我们提出了 EIBench,一个基于模拟器的交互式情感管理基准测试。EIBench 包含 2,222 个场景,其中 2,009 个用于训练,213 个用于保留测试。场景按照 2x2 分类法组织,涵盖支持、防御、修复和魅力,这些类别共同捕捉了不同形式的支持、边界维护、信任修复和关系建立。在每个场景中,一个 LLM 模拟器扮演用户,在每轮后更新情绪-关系状态,并将最终状态映射到基于锚点的分数。这种设计使 EIBench 既是一个评估基准,也是一个训练环境:最终状态提供结果奖励,而每轮状态更新则为强化学习提供密集反馈。我们评估了 15 个开源和闭源 LLM。当前模型在支持和关系建立场景中表现良好,但在用户压力下的边界维护方面存在困难。为了提升 LLM 的情商能力,我们提出了中心化回合信用 GRPO(CTC-GRPO),这是 GRPO 的一个扩展,它重用模拟器的每轮状态更新作为密集的回合级反馈,同时保留最终的结果奖励。CTC-GRPO 在 EIBench 上将 Qwen3-8B 从 -22.4 提升至 +22.4,并在包括 SAGE(+12.4)和 EQBench3(+20.9%)在内的分布外评估中也有所提升。我们的结果表明,模拟器跟踪的用户状态可以支持多轮情感管理的评估和训练。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:49

# 基于模拟器的情感管理基准与回合信用强化学习

来源:https://arxiv.org/html/2606.15532

## 摘要

大型语言模型(LLMs)中的情绪智力(EI)通常通过静态理解任务或单轮对话生成来评估。然而,情绪管理是交互式的:一个好的模型不仅应识别用户的情绪,还应能在多轮对话中改善用户的情绪和关系状态。我们引入EIBench,一个基于模拟器的交互式情绪管理基准。EIBench包含2,222个场景,其中2,009个用于训练,213个用于留存测试。这些场景按照一个2×2的分类体系组织,涵盖支持、防御、修复和魅力,共同捕捉不同形式的支持、边界维护、信任修复和关系建立。在每个场景中,一个LLM模拟器扮演用户,在每轮对话后更新情绪-关系状态,并将最终状态映射到基于锚点的分数。这一设计使EIBench既成为一个评估基准,也成为一个训练环境:最终状态提供结果奖励,而逐轮状态更新则为强化学习提供密集反馈。我们评估了15个开源和闭源LLM。当前模型在支持和关系建立场景中表现良好,但在用户压力下的边界维护方面存在困难。为提升LLM的情绪智力能力,我们提出中心化回合信用GRPO(CTC-GRPO),这是GRPO的一种扩展,在保留最终结果奖励的同时,重用模拟器的逐轮状态更新作为密集的回合级反馈。CTC-GRPO将Qwen3-8B在EIBench上的性能从-22.4提升至+22.4,并在分布外评估(包括SAGE(+12.4)和EQBench3(+20.9%))上也取得改进。我们的结果表明,模拟器追踪的用户状态可以为多轮情绪管理的评估和训练共同提供支持。

## 1 引言

大型语言模型(LLMs)随着最近的规模扩展和后训练突破而迅速发展。这些进展在数学和编程等复杂推理领域尤为突出。这些进步的关键驱动力是具有可验证奖励的强化学习(RLVR),其中正确性标签提供清晰、自动化的反馈,使奖励优化相对直接。然而,对于社交和情感交互等主观任务,通常不存在单一的正确回复。重要的是模型的行为如何在多轮交互中塑造和改变对方的情绪状态。

Mayer和Salovey将这种能力概念化为情绪智力(EI),并区分了四个层级:感知情绪、利用情绪促进思维、理解情绪结构以及在自身和他人中管理情绪。前三种能力通常可以从固定上下文中评估——识别存在哪种情绪、解释其产生原因或检验其如何影响推理。然而,情绪管理从根本上来说是不同的:它是一个状态改变问题,模型的回复根据其如何有效引导对方的情绪和关系状态随时间变化来评判。

我们观察到,大多数EI评估仍然关注情绪理解或狭义的交互形式,而非涵盖多轮对话的广泛情绪管理。早期的数据集将情绪对话视为对标注对话的监督学习。近期的基准转向更开放的评估:EQBench3要求模型推断心理状态并选择适当回复,而SOTOPIA评估多智能体社交场景中的目标完成情况。SAGE更接近我们的设置,由一个LLM模拟器扮演求助者,被测试模型在整个对话过程中提供支持。然而,这些设置仍未完全覆盖情绪管理。SOTOPIA关注目标完成而非改善对方的情绪和关系状态,而SAGE主要聚焦于寻求支持的对话。这导致处理压力、模型方错误后修复信任以及主动建立关系等常见情况研究不足。

为填补这一空白,我们构建了一个用于情绪管理的交互式基准。在我们的设置中,两个LLM进行多轮对话,分数基于模拟用户状态随时间的变化。我们同时追踪情绪和关系,因为改善用户情绪和建立更好关系是相关但不完全相同的目标。相同的状态轨迹也为RL训练提供回合级反馈。为覆盖不同形式的情绪管理,我们根据EI文献以2×2分类体系组织场景。该分类体系将调节目标与情境来源分开,产生四种场景类型:支持、防御、修复和魅力。

总体而言,我们做出三项主要贡献:

- **EIBench**:我们引入一个多轮情绪管理基准,涵盖基于调节目标和情境来源的2×2分类体系下的支持、防御、修复和魅力。
- **排行榜与验证**:我们在EIBench上评估15个开源和闭源LLM。我们报告在两个独立模拟器下的排名,并通过人类成对竞技场进行验证。
- **中心化回合信用GRPO(CTC-GRPO)**:我们提出用于多轮对话优化的CTC-GRPO。它使用模拟器的逐轮状态作为过程奖励,带有中心化信用项以重新分配回合级信用,而不改变结果信号。训练后的模型在分布外评估(包括EQBench3和SAGE)上也取得改进。

## 2 相关工作

### 2.1 情绪智力基准

NLP中早期的EI工作使用静态数据集,在固定上下文中教导模型支持性回复。随着LLM的增强,EQBench3、EmoBench、ToMBench和SI-Bench等基准转向更丰富的情感理解和社会推理场景。相关的角色扮演基准如CoSER进一步评估基于角色的对话生成。然而,它们仍然是离线或端到端的:模型无法影响用户接下来所说的话。

最近的基准增加了动态交互。AgentSense和SOTOPIA将多个智能体置于带有角色目标的环境中。SAGE和Echo-N1使用模拟求助者演变的LLM模拟器。它们是动态的但范围较窄——仅限目标完成或支持。我们的基准涵盖所有四种场景类型(支持、防御、修复、魅力),并在评估和RL训练之间共享相同的模拟器。这一区别很重要,因为仅支持评估无法测试模型是否能处理压力、从自身错误中恢复或在没有明确困扰时建立融洽关系。

| 数据集 | 规模 | 多轮 | 模拟器 | 状态评分 | 范围 | 评分维度 |
|--------|------|------|--------|----------|------|----------|
| ESConv | 195 | ✗ | ✗ | ✗ | 情感支持 | – |
| EQBench3 | 45 | ✗ | ✗ | ✗ | EQ推理 | EQ评分 |
| CoSER | 200 | ✓ | ✗ | ✗ | 角色扮演 | 角色一致性 |
| SOTOPIA | 90 | ✓ | ✓ | ✗ | 社交交互 | 目标 |
| SAGE | 100 | ✓ | ✓ | ✓ | 情感支持 | 情绪 |
| **EIBench** | **213** | **✓** | **✓** | **✓** | **情绪管理** | **情绪+关系** |

表1:基准对比。规模为测试集大小;模拟器指模拟器交互。

### 2.2 多轮强化学习与信用分配

在线策略RL已成为近期LLM后训练的核心部分,特别是在DeepSeek-R1等推理模型之后。在标准RLVR设置中,模型从最终答案获得奖励,这对数学和编程等具有明确正确性标准的任务效果良好。最近的扩展涉及智能体推理和工具使用,允许模型多步行动,但反馈通常仍是延迟的或任务特定的。

对于没有快速验证器的主观任务,近期工作常使用LLM作为裁判评分或成对排名。这些方法使开放式优化成为可能,但通常只提供终端分数。这造成了信用分配问题:单一最终奖励无法告知哪一回合帮助或损害了交互。近期方法通过奖励模型、回合级裁判或任务特定的过程奖励来密集化反馈。我们的设置提供了一个更简单的信号:模拟器在每轮模型回复后已经更新用户的情绪和关系状态。我们重用这些状态变化作为回合级过程奖励,而不增加另一个裁判模型。这使得在保持最终锚点结果分数不变用于评估的同时,提供密集反馈。

## 3 面向情绪管理的EIBench

本节介绍EIBench的设计。表1首先将EIBench与相关基准进行对比,图1给出整体工作流程。然后我们介绍2×2场景分类体系,描述场景构建和状态锚点,并定义基于多轮模拟器的评分方法。

### 3.1 基础:一个2×2场景分类体系

我们的分类体系基于情绪研究中的两个理念。Mayer和Salovey将情绪管理定义为人际和个体内的结合。我们使用这一区分作为第一个轴:调节目标。当模型主要需要改善用户的情绪或关系状态时,场景是他人导向的;当主要挑战是调节模型自身的立场、边界或主动性时,场景是自我导向的。

仅凭这个轴不够。例如,在外部损失后安抚用户和在模型错误后修复信任都旨在改善用户状态,但需要不同的行动。因此我们添加第二个轴:情境来源,遵循评价理论。当需求来自用户或外部事件时,场景是用户方的;当需求来自模型自身的错误或主动性时,场景是模型方的。交叉两个轴得到表2总结的四种场景类型。

支持涵盖外部原因导致的用户困扰。防御涵盖用户压力,模型必须保持冷静并维护边界。修复涵盖模型方错误和信任重建。魅力涵盖模型发起的融洽关系建立。

两个轴定义了每个场景的主要交互目标。其他因素如情绪强度、关系历史、权力关系和环境主要影响难度或表面形式。

![图1](https://arxiv.org/html/2606.15532v1/tongyi.jpg)
图1:EIBench和CTC-GRPO概述。EIBench通过2×2分类体系组织情绪管理场景,通过多轮模拟器交互和基于锚点的状态评分评估模型,并为CTC-GRPO训练提供回合级状态变化。

### 3.2 数据集构建

EIBench包含2,222个场景:2,009个用于训练,213个用于留存测试。每个场景是被测试模型与LLM模拟器之间的多轮角色扮演。

#### 3.2.1 场景组成部分

一个场景包含两个角色画像和三个状态锚点在情绪-关系轴上。模拟用户画像提供给模拟器,指定用户的角色、背景、说话风格、规则和目标。模型画像提供给被测试模型,指定其角色、已知事实和核心目标。大多数场景以模拟用户的开场白开始。唯一的例外是魅力,由被测试模型先说话,因为交互是由模型发起的。三个锚点定义开始、成功和失败状态以用于评分:s_start、s_succ和s_fail。

#### 3.2.2 场景生成与锚点设置

我们首先从人工编写和人工收集的场景种子构建测试集。每个种子指定背景故事、说话者关系、触发事件和期望结果。Gemini-3.1-Pro仅用于将这些种子转换为我们的画像格式;核心交互仍是人工编写或人工收集的。然后我们手动检查每个场景的合理性、画像一致性和锚点质量。

##### 训练场景生成

在测试集确定后,我们为训练集生成构建种子池。种子池包括主题方向、场景关键词和三个修饰维度:关系、情绪强度和人物。

相似文章