DynSess：面向角色扮演代理的动态会话级别评估与优化框架

arXiv cs.CL 2026/05/29 04:00 论文

role-playing llm evaluation optimization session-level agents

摘要

本文提出了 DynSess，一个用于角色扮演代理的统一会话级别评估与优化框架。该框架通过评分完整对话会话来解决回合级别指标的局限性，并利用会话级别奖励训练更具一致性的角色模型。

arXiv:2605.29256v1 公告类型：新论文摘要：基于大语言模型的角色扮演本质上是一项会话级别的任务，要求代理在跨多轮的长对话中维持角色身份和交互质量。然而，现有的评估与优化方法大多停留在回合级别，无法捕捉长期质量。我们提出了 DynSess，一个用于角色扮演代理的统一会话级别框架。DynSess-Eval 通过针对长期行为的评分标准对完整对话会话进行评分。利用其会话级别奖励，我们通过多轮前瞻搜索构建高质量训练轨迹，并训练 DynSess-Character，它包含两个互补变体：DSPO（离策略）和 GSRPO（在策略）。实验表明，DynSess-Eval 与人类判断的一致性显著优于先前评估器，盲人评估进一步显示，尽管 DynSess-Character 使用的参数少得多，但它能与最强的角色模型匹敌，同时保持强大的角色一致性和交互能力。我们的数据集和代码将公开发布，以促进未来研究。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:17

# DynSess：面向角色扮演代理的动态会话级评估与优化框架

**来源：** https://arxiv.org/html/2605.29256

荣晟张¹²*、季季唐²*、俊楠任³*、祖怡鲍²、伟杰陈²、若凡胡¹、周昭¹、汤杰吕²、燕张³†

¹浙江大学 ²网易伏羲人工智能实验室 ³厦门大学

{[email protected], [email protected], [email protected]}

###### 摘要

与大型语言模型进行角色扮演本质上是一项**会话级**任务，要求代理在扩展的多轮对话中维持角色身份和交互质量。然而，现有的评估和优化方法大多停留在轮次级，未能捕捉长程对话质量。我们提出**DynSess**，一个统一的会话级角色扮演代理框架。**DynSess-Eval** 通过针对长程行为的评估准则来对完整对话会话进行评分。利用其会话级奖励，我们通过多轮前瞻搜索构建高质量训练轨迹，并训练 **DynSess-Character**，其包含两种互补的变体：DSPO（离策略）和 GSRPO（在策略）。实验表明，DynSess-Eval 与人类判断的一致性显著优于先前的评估器。盲测人类评估进一步显示，尽管参数大幅减少，DynSess-Character 仍能与最强的角色模型匹敌，同时保持强大的角色一致性和交互能力。我们的数据集和代码将公开发布，以促进未来研究。

---

## 1 引言

![参考标题](图1：轮次级与会话级评估。一个处于僵化回复模式的代理在单轮中得分很高，但在整个会话中表现出重复的回复模板。)

大型语言模型（LLM）日益为情感陪伴、社交模拟和游戏等应用中的角色扮演代理提供动力 [Tseng et al. (2024); Chen et al. (2024)]。与标准的指令遵循任务不同，角色扮演在扩展的多轮交互中展开，代理必须在数十轮对话中维持角色忠诚度、同理心和上下文连贯性。然而，大多数现有的评估和优化此类代理的方法仍处于轮次级 [Wang et al. (2024a); Lu et al. (2024)]，孤立地对每个回复进行评分。这种范式忽略了长程故障模式，从而提供了关于代理真实会话能力的误导性图景。如图1所示，想象一个代理以向困扰的用户提出后续问题来结束每个回复。在轮次级评估下，每个孤立的回复看起来都高度互动——例如，询问“发生了什么？”——从而给代理在互动性上打出“优秀”分数。然而，从长远角度来看，这揭示了一个关键缺陷：代理实际上陷入了重复的回复模板。通过僵化地提问，无视用户不断变化的情感状态，它忽略了用户的真实困扰，创造了一种机械的体验。这揭示了一个根本性缺陷：轮次级指标奖励局部参与，但忽略了全局不连贯。简而言之，角色扮演根本上是会话级任务——其质量在对话轮次之间涌现，而非任何单个轮次内。

近期工作开始将多轮历史纳入角色扮演评估 [Zhou et al. (2025a); Xiang et al. (2025)] 和偏好优化 [Ye et al. (2025)]。虽然这些方法以更长的上下文为条件，但其信号仍然是在**单个下一轮回复**上针对预先收集的历史计算的，这引发了两个问题。首先，由于历史是固定的而非由代理共同产生，评估无法观察模型自身早期行为如何塑造后续动态，例如角色漂移。其次，针对短视奖励进行优化会提供对齐错误的训练信号 [Shani et al. (2024); Wu et al. (2025)]，因为局部偏好的回复可能累积成全局退化的会话。

为解决这一差距，我们提出 **DynSess**，一个将评估与优化相结合的统一会话级框架。评估组件 **DynSess-Eval** 在两个方面不同于先前的LLM评判。首先，它对**整个交互轨迹**进行评分，而非单个轮次，其中代理的回复和用户模拟器共同产生对话。其次，它引入了一个专门针对会话级现象（例如，跨轮次的人物一致性、对用户状态演变的适应）设计的评估准则，这在单个轮次上无法定义。与标准基于准则的评判 [Lee et al. (2025); Chiang et al. (2025)] 相比，后者针对静态的每回复属性，这种设计产生的评估信号对长程行为更加忠实，并且对随着上下文增长而恶化的分数膨胀更加鲁棒。

在优化方面，**DynSess-Character** 将会话级评估转化为可训练的信号。我们首先通过奖励驱动的**多轮前瞻搜索**构建高质量训练轨迹，该搜索根据下游会话级奖励而非即时合理性选择回复，从而减轻在直接收集的对话上进行监督微调（SFT）时的误差累积。在此基础上，我们在两种互补的机制下实例化会话级对齐：DSPO，一种对比整个轨迹的离策略方案，以及 GSRPO，一种在策略组相对方案——两者都直接作用于会话级奖励，而非像先前多轮强化学习（RL）那样聚合轮次级信号。它们共同覆盖离策略和在策略设置，让从业者可以在训练成本和对齐质量之间进行权衡。

总体而言，我们的贡献有三方面：

- • 我们提出 **DynSess-Eval**，一个基于准则的评判，将角色扮演评估从静态轮次转向动态多轮轨迹，有效捕捉了轮次级指标忽略的长程行为。
- • 我们构建 **DynSess-Character**，通过奖励驱动的轨迹构建方法利用会话级评估进行优化，以增强 SFT，并结合两种会话级对齐方法——**DSPO**（离策略）和 **GSRPO**（在策略）——共同减轻长对话中的误差累积。
- • 大量实验验证DynSess-Eval在人类一致性上大幅超越基线，而DynSess-Character在参数大幅减少的情况下达到了与最先进模型相当的性能。

## 2 相关工作

![参考标题](图2：我们框架的概览。DynSess-Eval（左侧）模拟多轮用户-代理会话，并通过基于准则的评判沿四个维度进行评分。DynSess-Character（右侧）利用这些会话级奖励，通过多轮前瞻搜索构建轨迹用于SFT，并通过离策略DSPO或在策略GSRPO进一步对齐代理。)

##### 基于LLM的角色扮演代理。
早期的基于LLM的角色扮演代理主要依赖提示来实例化目标角色 [Character.AI Inc. (2024)]，而近期工作通过在角色特定对话上进行监督微调 [Do et al. (2025); Wang et al. (2024a); Zhou et al. (2024a); Zhu et al. (2025)] 和基于偏好的对齐（如针对角色扮演定制的RLHF）[Ye et al. (2025); Fang et al. (2025)] 来提高角色忠诚度。尽管在回复层面实现了更好的角色遵守，但这些方法仍在轮次级进行优化，与依赖于持续交互和跨轮连续性的长程质量对齐不佳 [Feng et al. (2025)]。

##### 角色扮演代理的评估。
角色扮演评估同样一直被回复级评判所主导。许多基准采用“LLM-as-a-Judge”范式，根据角色忠诚度、事实一致性和风格匹配等标准对输出进行评分 [Wang et al. (2024a); Li et al. (2023)]。代表性例子包括 CharacterEval [Tu et al. (2024)] 和 InCharacter [Wang et al. (2024b)]，后者测试模型在心理逻辑测试下是否保持角色。近期工作已开始超越静态单轮设置：CharacterBench [Zhou et al. (2025b)] 使用目标上下文测试特定能力，其他基准引入了多轮交互。然而，现有协议仍专注于孤立回复、逐轮评分对话，或仅提供相对偏好信号，对于长程能力（如叙事主动性、情感进程和上下文连续性）提供的证据有限。

##### 多轮对话中的优化。
超越角色扮演，近期工作已探索会话级优化以捕捉多轮交互中的序列依赖关系 [Shani et al. (2024); Li et al. (2025)]。多轮RLHF [Gao et al. (2024); Zhou et al. (2024b)] 和轨迹级DPO [Kong et al. (2025); Shi et al. (2024)] 的现有方法通常针对任务导向领域，其中轨迹质量可以基于明确的终端奖励（如任务完成或解决方案正确性）来评估。开放式角色扮演在两个关键方面不同：没有确定最终状态来定义成功，会话质量取决于故事流畅性、角色一致性和交互自然性等主观属性。为此类会话构建轨迹级偏好信号仍然是一个核心挑战，这促使我们关注角色扮演代理的会话级评估和偏好优化。

## 3 方法

在本节中，我们提出用于角色扮演代理的动态会话级框架（如图2所示）。如图所示，左侧的 DynSess-Eval 是我们的评估组件（详见3.1节）。右侧的 DynSess-Character 作为优化模块（详见3.2节）。

### 3.1 动态会话级评估

我们提出动态会话评估（DynSess-Eval）来研究角色扮演代理的长期对话能力。我们的关键见解是，轮次级评估在给定固定历史下生成单个回复，缺乏追踪行为漂移的纵向视角，并且未能考虑动态的用户参与。因此，它对代理的长期连贯性产生了不准确的评估。为解决这一局限，DynSess-Eval 通过引入用户模拟器，从静态评估过渡到动态交互。如图2左面板所示，评估实例以目标角色描述 \(P_C\) 和可选的初始上下文 \(H_0\) 初始化。我们首先通过一个推导模块 \(\mathcal{M}_{\text{up}}\)（由提示模板 \(\mathcal{I}_{\text{up}}\) 参数化，见附录C.2）合成用户描述 \(P_U\)：

\[
P_U \sim \mathcal{M}_{\text{up}}(\cdot \mid \mathcal{I}_{\text{up}}, P_C).
\tag{1}
\]

配备 \(P_C\) 和 \(P_U\) 后，我们模拟一个 \(T\) 轮交互会话，在角色代理 \(\pi_\theta\) 和用户模拟器 \(\pi_{\text{user}}\) 之间进行。在每一轮 \(t\)，两个模型根据各自角色和先前上下文 \(H_{t-1}\) 生成回复：

\[
\begin{split}
u_t &\sim \pi_{\text{user}}(\cdot \mid P_U, H_{t-1}), \\
a_t &\sim \pi_\theta(\cdot \mid P_C, H_{t-1} \oplus u_t),
\end{split}
\tag{2}
\]

其中 \(u_t\) 和 \(a_t\) 分别表示第 \(t\) 轮的用户话语和代理回复。上下文通过附加新话语逐步更新：\(H_t = H_{t-1} \oplus (u_t, a_t)\)。最终生成的 \(T\) 轮会话记作 \(\tau = H_T\)。

##### 基于准则的会话评分。
使用标准的 LLM-as-a-Judge 提示评估主观任务通常会产生膨胀且不稳定的分数，因为 LLM 在长距离多轮交互中难以一致地平衡多个标准。受 Wei et al. (2025) 启发，我们提出一个**基于准则的评判** \(J\)，它将证据提取与分数聚合解耦，提供可靠且可解释的会话级信号。遵循角色扮演评估的常见实践 [Zhou et al. (2025a)]，我们在四个维度上评估代理：**交互能力**（\(D_{IA}\)）、**人性化**（\(D_{HL}\)）、**角色一致性**（\(D_{RC}\)）和**上下文连贯性**（\(D_{CC}\)）。为捕捉长期动态，我们为每个维度设计了专门的**会话级标准** \(\mathcal{C}_d\)，明确针对长程行为，如**渐进式角色漂移**、**重复循环**和**记忆利用**。具体而言，给定轨迹 \(\tau\)，评判 \(J\) 首先使用维度特定的提示 \(\mathcal{I}_d\)（见附录C.1）提取触发的标准：

\[
\mathcal{E}_d(\tau) = J(\tau, \mathcal{I}_d), \quad \mathcal{E}_d(\tau) \subseteq \mathcal{C}_d.
\tag{3}
\]

维度得分 \(s_d\) 随后通过围绕中性基线 \(b_d\) 聚合触发标准的带符号权重 \(w_c\) 计算，其中正权重奖励期望行为，负权重惩罚失败模式：

\[
s_d(\tau) = \mathrm{clip}\left(b_d + \sum_{c \in \mathcal{E}_d(\tau)} w_c, \; s_{\min}, \; s_{\max}\right)
\tag{4}
\]

\(w_c\) 和 \(b_d\) 都在一小批人工标注的会话上进行校准，以使评判的输出与专家意见对齐。

DynSess：面向角色扮演代理的动态会话级别评估与优化框架

相似文章

PersonaArena：用于评估和增强大语言模型中人格层面角色扮演的动态模拟框架

Dialogue SWE-Bench：对话驱动编码代理的基准测试

ArcANE：角色扮演语言智能体能否在恰当时间保持角色一致性？

SkillOpt：自我进化智能体技能的执行策略

DyCon: 通过演化难度建模的动态推理控制

提交意见反馈