DynSess:面向角色扮演代理的动态会话级别评估与优化框架
摘要
本文提出了 DynSess,一个用于角色扮演代理的统一会话级别评估与优化框架。该框架通过评分完整对话会话来解决回合级别指标的局限性,并利用会话级别奖励训练更具一致性的角色模型。
arXiv:2605.29256v1 公告类型:新论文
摘要:基于大语言模型的角色扮演本质上是一项会话级别的任务,要求代理在跨多轮的长对话中维持角色身份和交互质量。然而,现有的评估与优化方法大多停留在回合级别,无法捕捉长期质量。我们提出了 DynSess,一个用于角色扮演代理的统一会话级别框架。DynSess-Eval 通过针对长期行为的评分标准对完整对话会话进行评分。利用其会话级别奖励,我们通过多轮前瞻搜索构建高质量训练轨迹,并训练 DynSess-Character,它包含两个互补变体:DSPO(离策略)和 GSRPO(在策略)。实验表明,DynSess-Eval 与人类判断的一致性显著优于先前评估器,盲人评估进一步显示,尽管 DynSess-Character 使用的参数少得多,但它能与最强的角色模型匹敌,同时保持强大的角色一致性和交互能力。我们的数据集和代码将公开发布,以促进未来研究。
查看缓存全文
缓存时间: 2026/05/29 09:17
# DynSess:面向角色扮演代理的动态会话级评估与优化框架
**来源:** https://arxiv.org/html/2605.29256
荣晟张¹²*、季季唐²*、俊楠任³*、祖怡鲍²、伟杰陈²、若凡胡¹、周昭¹、汤杰吕²、燕张³†
¹浙江大学 ²网易伏羲人工智能实验室 ³厦门大学
{[email protected], [email protected], [email protected]}
###### 摘要
与大型语言模型进行角色扮演本质上是一项**会话级**任务,要求代理在扩展的多轮对话中维持角色身份和交互质量。然而,现有的评估和优化方法大多停留在轮次级,未能捕捉长程对话质量。我们提出**DynSess**,一个统一的会话级角色扮演代理框架。**DynSess-Eval** 通过针对长程行为的评估准则来对完整对话会话进行评分。利用其会话级奖励,我们通过多轮前瞻搜索构建高质量训练轨迹,并训练 **DynSess-Character**,其包含两种互补的变体:DSPO(离策略)和 GSRPO(在策略)。实验表明,DynSess-Eval 与人类判断的一致性显著优于先前的评估器。盲测人类评估进一步显示,尽管参数大幅减少,DynSess-Character 仍能与最强的角色模型匹敌,同时保持强大的角色一致性和交互能力。我们的数据集和代码将公开发布,以促进未来研究。
---
## 1 引言

大型语言模型(LLM)日益为情感陪伴、社交模拟和游戏等应用中的角色扮演代理提供动力 [Tseng et al. (2024); Chen et al. (2024)]。与标准的指令遵循任务不同,角色扮演在扩展的多轮交互中展开,代理必须在数十轮对话中维持角色忠诚度、同理心和上下文连贯性。然而,大多数现有的评估和优化此类代理的方法仍处于轮次级 [Wang et al. (2024a); Lu et al. (2024)],孤立地对每个回复进行评分。这种范式忽略了长程故障模式,从而提供了关于代理真实会话能力的误导性图景。如图1所示,想象一个代理以向困扰的用户提出后续问题来结束每个回复。在轮次级评估下,每个孤立的回复看起来都高度互动——例如,询问“发生了什么?”——从而给代理在互动性上打出“优秀”分数。然而,从长远角度来看,这揭示了一个关键缺陷:代理实际上陷入了重复的回复模板。通过僵化地提问,无视用户不断变化的情感状态,它忽略了用户的真实困扰,创造了一种机械的体验。这揭示了一个根本性缺陷:轮次级指标奖励局部参与,但忽略了全局不连贯。简而言之,角色扮演根本上是会话级任务——其质量在对话轮次之间涌现,而非任何单个轮次内。
近期工作开始将多轮历史纳入角色扮演评估 [Zhou et al. (2025a); Xiang et al. (2025)] 和偏好优化 [Ye et al. (2025)]。虽然这些方法以更长的上下文为条件,但其信号仍然是在**单个下一轮回复**上针对预先收集的历史计算的,这引发了两个问题。首先,由于历史是固定的而非由代理共同产生,评估无法观察模型自身早期行为如何塑造后续动态,例如角色漂移。其次,针对短视奖励进行优化会提供对齐错误的训练信号 [Shani et al. (2024); Wu et al. (2025)],因为局部偏好的回复可能累积成全局退化的会话。
为解决这一差距,我们提出 **DynSess**,一个将评估与优化相结合的统一会话级框架。评估组件 **DynSess-Eval** 在两个方面不同于先前的LLM评判。首先,它对**整个交互轨迹**进行评分,而非单个轮次,其中代理的回复和用户模拟器共同产生对话。其次,它引入了一个专门针对会话级现象(例如,跨轮次的人物一致性、对用户状态演变的适应)设计的评估准则,这在单个轮次上无法定义。与标准基于准则的评判 [Lee et al. (2025); Chiang et al. (2025)] 相比,后者针对静态的每回复属性,这种设计产生的评估信号对长程行为更加忠实,并且对随着上下文增长而恶化的分数膨胀更加鲁棒。
在优化方面,**DynSess-Character** 将会话级评估转化为可训练的信号。我们首先通过奖励驱动的**多轮前瞻搜索**构建高质量训练轨迹,该搜索根据下游会话级奖励而非即时合理性选择回复,从而减轻在直接收集的对话上进行监督微调(SFT)时的误差累积。在此基础上,我们在两种互补的机制下实例化会话级对齐:DSPO,一种对比整个轨迹的离策略方案,以及 GSRPO,一种在策略组相对方案——两者都直接作用于会话级奖励,而非像先前多轮强化学习(RL)那样聚合轮次级信号。它们共同覆盖离策略和在策略设置,让从业者可以在训练成本和对齐质量之间进行权衡。
总体而言,我们的贡献有三方面:
- • 我们提出 **DynSess-Eval**,一个基于准则的评判,将角色扮演评估从静态轮次转向动态多轮轨迹,有效捕捉了轮次级指标忽略的长程行为。
- • 我们构建 **DynSess-Character**,通过奖励驱动的轨迹构建方法利用会话级评估进行优化,以增强 SFT,并结合两种会话级对齐方法——**DSPO**(离策略)和 **GSRPO**(在策略)——共同减轻长对话中的误差累积。
- • 大量实验验证DynSess-Eval在人类一致性上大幅超越基线,而DynSess-Character在参数大幅减少的情况下达到了与最先进模型相当的性能。
## 2 相关工作
模拟多轮用户-代理会话,并通过基于准则的评判沿四个维度进行评分。DynSess-Character(右侧)利用这些会话级奖励,通过多轮前瞻搜索构建轨迹用于SFT,并通过离策略DSPO或在策略GSRPO进一步对齐代理。)
##### 基于LLM的角色扮演代理。
早期的基于LLM的角色扮演代理主要依赖提示来实例化目标角色 [Character.AI Inc. (2024)],而近期工作通过在角色特定对话上进行监督微调 [Do et al. (2025); Wang et al. (2024a); Zhou et al. (2024a); Zhu et al. (2025)] 和基于偏好的对齐(如针对角色扮演定制的RLHF)[Ye et al. (2025); Fang et al. (2025)] 来提高角色忠诚度。尽管在回复层面实现了更好的角色遵守,但这些方法仍在轮次级进行优化,与依赖于持续交互和跨轮连续性的长程质量对齐不佳 [Feng et al. (2025)]。
##### 角色扮演代理的评估。
角色扮演评估同样一直被回复级评判所主导。许多基准采用“LLM-as-a-Judge”范式,根据角色忠诚度、事实一致性和风格匹配等标准对输出进行评分 [Wang et al. (2024a); Li et al. (2023)]。代表性例子包括 CharacterEval [Tu et al. (2024)] 和 InCharacter [Wang et al. (2024b)],后者测试模型在心理逻辑测试下是否保持角色。近期工作已开始超越静态单轮设置:CharacterBench [Zhou et al. (2025b)] 使用目标上下文测试特定能力,其他基准引入了多轮交互。然而,现有协议仍专注于孤立回复、逐轮评分对话,或仅提供相对偏好信号,对于长程能力(如叙事主动性、情感进程和上下文连续性)提供的证据有限。
##### 多轮对话中的优化。
超越角色扮演,近期工作已探索会话级优化以捕捉多轮交互中的序列依赖关系 [Shani et al. (2024); Li et al. (2025)]。多轮RLHF [Gao et al. (2024); Zhou et al. (2024b)] 和轨迹级DPO [Kong et al. (2025); Shi et al. (2024)] 的现有方法通常针对任务导向领域,其中轨迹质量可以基于明确的终端奖励(如任务完成或解决方案正确性)来评估。开放式角色扮演在两个关键方面不同:没有确定最终状态来定义成功,会话质量取决于故事流畅性、角色一致性和交互自然性等主观属性。为此类会话构建轨迹级偏好信号仍然是一个核心挑战,这促使我们关注角色扮演代理的会话级评估和偏好优化。
## 3 方法
在本节中,我们提出用于角色扮演代理的动态会话级框架(如图2所示)。如图所示,左侧的 DynSess-Eval 是我们的评估组件(详见3.1节)。右侧的 DynSess-Character 作为优化模块(详见3.2节)。
### 3.1 动态会话级评估
我们提出动态会话评估(DynSess-Eval)来研究角色扮演代理的长期对话能力。我们的关键见解是,轮次级评估在给定固定历史下生成单个回复,缺乏追踪行为漂移的纵向视角,并且未能考虑动态的用户参与。因此,它对代理的长期连贯性产生了不准确的评估。为解决这一局限,DynSess-Eval 通过引入用户模拟器,从静态评估过渡到动态交互。如图2左面板所示,评估实例以目标角色描述 \(P_C\) 和可选的初始上下文 \(H_0\) 初始化。我们首先通过一个推导模块 \(\mathcal{M}_{\text{up}}\)(由提示模板 \(\mathcal{I}_{\text{up}}\) 参数化,见附录C.2)合成用户描述 \(P_U\):
\[
P_U \sim \mathcal{M}_{\text{up}}(\cdot \mid \mathcal{I}_{\text{up}}, P_C).
\tag{1}
\]
配备 \(P_C\) 和 \(P_U\) 后,我们模拟一个 \(T\) 轮交互会话,在角色代理 \(\pi_\theta\) 和用户模拟器 \(\pi_{\text{user}}\) 之间进行。在每一轮 \(t\),两个模型根据各自角色和先前上下文 \(H_{t-1}\) 生成回复:
\[
\begin{split}
u_t &\sim \pi_{\text{user}}(\cdot \mid P_U, H_{t-1}), \\
a_t &\sim \pi_\theta(\cdot \mid P_C, H_{t-1} \oplus u_t),
\end{split}
\tag{2}
\]
其中 \(u_t\) 和 \(a_t\) 分别表示第 \(t\) 轮的用户话语和代理回复。上下文通过附加新话语逐步更新:\(H_t = H_{t-1} \oplus (u_t, a_t)\)。最终生成的 \(T\) 轮会话记作 \(\tau = H_T\)。
##### 基于准则的会话评分。
使用标准的 LLM-as-a-Judge 提示评估主观任务通常会产生膨胀且不稳定的分数,因为 LLM 在长距离多轮交互中难以一致地平衡多个标准。受 Wei et al. (2025) 启发,我们提出一个**基于准则的评判** \(J\),它将证据提取与分数聚合解耦,提供可靠且可解释的会话级信号。遵循角色扮演评估的常见实践 [Zhou et al. (2025a)],我们在四个维度上评估代理:**交互能力**(\(D_{IA}\))、**人性化**(\(D_{HL}\))、**角色一致性**(\(D_{RC}\))和**上下文连贯性**(\(D_{CC}\))。为捕捉长期动态,我们为每个维度设计了专门的**会话级标准** \(\mathcal{C}_d\),明确针对长程行为,如**渐进式角色漂移**、**重复循环**和**记忆利用**。具体而言,给定轨迹 \(\tau\),评判 \(J\) 首先使用维度特定的提示 \(\mathcal{I}_d\)(见附录C.1)提取触发的标准:
\[
\mathcal{E}_d(\tau) = J(\tau, \mathcal{I}_d), \quad \mathcal{E}_d(\tau) \subseteq \mathcal{C}_d.
\tag{3}
\]
维度得分 \(s_d\) 随后通过围绕中性基线 \(b_d\) 聚合触发标准的带符号权重 \(w_c\) 计算,其中正权重奖励期望行为,负权重惩罚失败模式:
\[
s_d(\tau) = \mathrm{clip}\left(b_d + \sum_{c \in \mathcal{E}_d(\tau)} w_c, \; s_{\min}, \; s_{\max}\right)
\tag{4}
\]
\(w_c\) 和 \(b_d\) 都在一小批人工标注的会话上进行校准,以使评判的输出与专家意见对齐。相似文章
PersonaArena:用于评估和增强大语言模型中人格层面角色扮演的动态模拟框架
PersonaArena 是一个动态模拟框架,利用大规模社交内容语料库和多智能体辩论评判机制,评估并提升大语言模型在真实社交场景中保持连贯且真实的人格层面角色扮演能力。
Dialogue SWE-Bench:对话驱动编码代理的基准测试
提出了 Dialogue-SWE-Bench,这是一个用于评估编码代理通过与用户对话解决软件工程问题能力的基准测试。该研究还提出了一种基于角色设定的用户模拟器和一个能够提升对话能力的模式引导型代理。
ArcANE:角色扮演语言智能体能否在恰当时间保持角色一致性?
本文介绍ArcANE,一个自动构建的基准测试,用于评估角色扮演语言智能体在叙事阶段中与角色心理轨迹的一致性。研究表明,基于角色弧信息进行条件化能提升性能,尤其是在超出源文本的场景中。
SkillOpt:自我进化智能体技能的执行策略
SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。
DyCon: 通过演化难度建模的动态推理控制
本文介绍了DyCon,一种无需训练的框架,利用步骤级嵌入来建模演化的任务难度,并动态控制大型推理模型(LRMs)的推理深度,有效减少过度思考,在不牺牲准确性的情况下提高效率。