RealUserSim:通过真实用户模拟弥合智能体基准测试中的现实差距

arXiv cs.AI 论文

摘要

本文介绍了RealUserSim,一个将基于LLM的用户模拟扎根于来自14,000+真实对话的人类行为数据中的框架,旨在弥合智能体基准测试中的现实差距。研究表明,基于真实数据的模拟将行为匹配率从24.2%提升至45.3%,并揭示了协作型模拟器无法发现的失效机制。

arXiv:2605.20204v1 公告类型: cross 摘要:基于LLM的用户模拟是端到端智能体评估的主要机制,然而模拟用户作为真实人类的替代品效果不佳:无约束的LLM默认行为会产生“形式化天花板”(与真实用户的风格匹配率仅为6-8%),而手工制定的行为指令则引发“指令放大”效应,即模型过度解读指令导致行为极端不自然,且不同模拟器模型之间差异巨大。我们提出了RealUserSim,这是首个扎根于真实行为数据的用户模拟框架。从14,000+条真实人机对话(WildChat)中,我们提取了7,275个可执行的行为轮廓,并用其约束LLM模拟器。在包含71+领域、600条对话的保真度基准测试(PT3)中,采用防泄漏控制,结果表明基于真实数据的模拟将五个行为维度的匹配率从24.2%提升至45.3%。在TauBench上使用6种模拟器模型进行智能体评估及大量分析表明,基于真实数据的模拟充当了现实的压力测试,揭示了协作型模拟器无法发现的三种失效机制(平均任务成功率下降-3.2%至-3.5%),而现有基准测试中的指令放大效应则产生不真实行为,损害了智能体评估的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:52

# RealUserSim:通过真实数据驱动的用户模拟缩小智能体评估中的现实差距 来源:https://arxiv.org/html/2605.20204 Ming Zhu,Juntao Tan,Rithesh Murthy,Jielin Qiu,Liangwei Yang, Wenting Zhao,Silvio Savarese,Shelby Heinecke,Huan Wang Salesforce AI Research ###### 摘要 基于LLM的用户模拟是端到端智能体评估的主要机制,但模拟用户与真实人类存在巨大差异:不受约束的LLM默认行为会导致*形式主义天花板*(与真实用户的风格匹配率仅6–8%),而手工设计的指令行为则会触发*指令放大*现象,模型过度解读指令,在不同模拟器模型之间产生极端不自然的行为。我们提出RealUserSim,这是首个基于真实行为数据的用户模拟框架。从14,000余次真实人机对话(WildChat)中,我们提取了7,275个可执行的用户行为档案,并以此为基础约束LLM模拟器。在涵盖71+领域、包含600次对话且具备反泄漏控制的保真度基准测试(PT3)中,基于真实数据的模拟将五个行为维度的匹配率从24.2%提升至45.3%。在τ-bench上使用6个模拟器模型进行的智能体评估及广泛分析表明,基于真实数据的模拟充当了现实的压力测试,揭示了合作型模拟器无法发现的三种失败机制(任务成功率平均下降−3.2%至−3.5%),而现有基准测试中的指令放大则会产生不切实际的行为,损害智能体评估的有效性。 ## 1 引言 大型语言模型(LLM)越来越多地被部署为面向用户的自主智能体,应用于客服、技术支持、电子商务等任务导向领域(Yao et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib2); Barres et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib22))。准确评估这些智能体至关重要,但实时用户研究成本高昂且难以扩展。因此,社区已将基于LLM的用户模拟作为端到端智能体评估的主要机制(Yao et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib2); Ren et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib19); Bougie and Watanabe, 2025 (https://arxiv.org/html/2605.20204#bib.bib20))。然而,越来越多的证据表明模拟用户与真实人类存在显著差异:他们过于合作、风格单一,缺乏真实的挫折感或含糊不清(Seshadri et al., 2026 (https://arxiv.org/html/2605.20204#bib.bib33); Zhou et al., 2026 (https://arxiv.org/html/2605.20204#bib.bib34)),导致智能体性能被高估,并掩盖了部署中关键的失败模式。我们确定了造成这种*现实差距*的两个根本原因。首先,不受约束的LLM模拟器默认采用“合作助手”的角色:语法正确、标点规范、冗长的文本,无论目标用户的实际风格如何。我们证明,在没有行为约束的情况下,与真实用户的风格相关匹配率接近底线(6–8%),我们将此现象称为**形式主义天花板**。其次,手工设计的指令行为(例如,“你是一个愤怒的客户”)会触发**指令放大**:模型过度解读指令,产生极端不自然的行为,包括场景描述(例如,*抽泣*)和高度结构化的多请求模式,这些真实人类不会产生。我们证明,相同的指令在不同模型之间会产生截然不同的行为,使得带有指令的基准测试得分在不同模拟器模型之间无法比较。 同期工作已经诊断了该问题的某些方面。Seshadri et al. (2026 (https://arxiv.org/html/2605.20204#bib.bib33)) 进行的人类研究表明,LLM模拟用户产生的对话模式和失败模式与真实人类不同,成功率在不同模拟器模型之间波动高达9个百分点。Zhou et al. (2026 (https://arxiv.org/html/2605.20204#bib.bib34)) 评估了31个LLM模拟器与451名人类参与者,发现更高的模型能力并不能产生更忠实的模拟。这两项工作都得出结论,人类验证至关重要。然而,这些研究主要属于诊断性:它们描述了模拟与现实的差距,但没有提供缩小差距的建设性框架。相比之下,RealUserSim提供了处方式解决方案:我们从真实用户数据中提取行为档案,并用其约束LLM模拟器,展示了在多个行为维度上的可量化保真度提升。虽然先前基于角色的方法依赖合成或虚构的角色(Wang et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib10); Shao et al., 2023 (https://arxiv.org/html/2605.20204#bib.bib11); Park et al., 2023 (https://arxiv.org/html/2605.20204#bib.bib8); Wang et al., 2025c (https://arxiv.org/html/2605.20204#bib.bib15)),但RealUserSim是首个从真实人机交互中提取真实用户行为数据并以此约束模拟的框架。 我们提出RealUserSim,一个基于真实数据的用户模拟框架,包含两个核心模块:(1)一个从真实用户数据中提取行为模型的档案构建流程;(2)一个通过配对行为图灵测试(PT3)进行保真度评估的基于真实数据的模拟流程。利用WildChat(Zhao et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib3))中的14,000余次真实对话,我们构建了7,000余个包含人口统计摘要和基于观察数据定义的语言风格的可执行行为档案。我们的贡献如下: - •我们提出了首个基于真实行为数据的用户模拟框架,从真实人机交互(WildChat)中提取了7,275个可执行档案,取代了智能体评估中的合成或虚构角色。 - •我们引入了一个用户模拟保真度基准测试(PT3),从五个行为维度衡量忠实度。在涵盖71+领域、具备反泄漏控制的600次对话中,基于真实数据的用户模拟将匹配率从24.2%提升至45.3%,打破了未约束模拟器在风格维度上仅得6–8%的形式主义天花板。 - •通过在τ-bench上使用6个模拟器模型进行的智能体评估及广泛分析,我们展示了基于真实数据的用户模拟充当了现实的压力测试,揭示了合作型模拟器无法发现的三种失败机制(平均下降−3.2%至−3.5%),缩小了智能体基准测试中的现实差距。我们进一步证明,现有基准测试中的指令放大会产生不切实际的模拟器行为,损害智能体评估的有效性。 ## 2 相关工作 ##### 基于角色的用户模拟。 用户模拟已从基于规则(Schatzmann et al., 2006 (https://arxiv.org/html/2605.20204#bib.bib5))和神经网络(Kreyssig et al., 2018 (https://arxiv.org/html/2605.20204#bib.bib6))的方法发展为LLM驱动的角色扮演智能体和生成式模拟(Shanahan et al., 2023 (https://arxiv.org/html/2605.20204#bib.bib7); Chen et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib9); Park et al., 2023 (https://arxiv.org/html/2605.20204#bib.bib8))。近期工作通过角色级微调和基准测试发展了角色模拟架构(Wang et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib10); Shao et al., 2023 (https://arxiv.org/html/2605.20204#bib.bib11)),通过强化学习和结构化推理实现角色一致性(Abdulhai et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib14); Du et al., 2026 (https://arxiv.org/html/2605.20204#bib.bib13); Kim et al., 2026 (https://arxiv.org/html/2605.20204#bib.bib21)),以及可扩展的角色生成(Wang et al., 2025c (https://arxiv.org/html/2605.20204#bib.bib15); b (https://arxiv.org/html/2605.20204#bib.bib16))。评估框架通过动态指标(Samuel et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib17))和基于知识的模拟(Shea et al., 2026 (https://arxiv.org/html/2605.20204#bib.bib18))评估角色保真度。然而,先前基于角色的对话侧重于知识型角色(Zhang et al., 2018 (https://arxiv.org/html/2605.20204#bib.bib4))或任务导向场景中的话语级真实性(Wang et al., 2025a (https://arxiv.org/html/2605.20204#bib.bib12))。相反,RealUserSim从真实人机交互(Zhao et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib3))中提取*真实用户行为数据*来约束模拟,关注用户*如何*交流而非*他们知道什么*,并通过保真度基准测试在多个行为维度上衡量忠实度。 ##### 交互式智能体基准测试。 τ-bench(Yao et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib2))建立了针对工具增强智能体的多轮用户-智能体评估,并由τ²-bench(Barres et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib22))扩展到双重控制设置。基准测试现已涵盖协作推理(Sun et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib23); Zhou et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib24)),数据分析和搜索(Li et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib27); Deng et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib28)),记忆驱动对话(Bian et al., 2026 (https://arxiv.org/html/2605.20204#bib.bib25); Jiayang et al., 2026 (https://arxiv.org/html/2605.20204#bib.bib26)),对抗鲁棒性(Jiang et al., 2026 (https://arxiv.org/html/2605.20204#bib.bib29)),以及特定领域的评估,包括网络搜索、推荐、产品搜索和策略遵从(Ren et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib19); Bougie and Watanabe, 2025 (https://arxiv.org/html/2605.20204#bib.bib20); Ye et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib32); Shang et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib31); Nakash et al., 2025 (https://arxiv.org/html/2605.20204#bib.bib30))。然而,这些基准测试要么使用不受约束的LLM默认设置,要么使用手工设计的指令行为作为用户模拟器,我们证明两者都会产生不切实际的交互模式。RealUserSim通过将用户模拟器基于真实行为数据,揭示了智能体在面对真实沟通风格变化时的脆弱性,从而解决了这一差距。 ## 3 方法论 RealUserSim框架包含两个核心模块:(1)从真实用户数据构建行为档案;(2)基于真实数据的用户模拟及其保真度评估。 ### 3.1 从真实用户构建档案 我们从WildChat-4.8M(Zhao et al., 2024 (https://arxiv.org/html/2605.20204#bib.bib3))(一个大规模真实人机交互数据集)中构建了**7,275个对话档案**。从320万次对话开始,我们筛选出21,637条多轮(≥3轮)英文GPT-4o轨迹,涉及7,311个独立用户(完整流程见附录A (https://arxiv.org/html/2605.20204#A1))。每个档案包含一个*语言风格档案*和一个*人口统计档案*。 ##### 用户角色画像。 针对每个用户,GPT-4o分析其对话历史,生成一个**可执行角色手册**:最多15个“命令 + 示例”对,捕捉重复出现的沟通模式。每条命令是面向LLM模拟器的直接指令;每个示例引用自用户的实际消息: > 命令:频繁重复单词或短语以强调。示例:"the most the most famous food"; "there are there are huge differences" 命令:使用"hmm"或"ahh"表示思考或犹豫。示例:"hmm i think the older people"; "hmmm if we eat veegtables" 命令:不满意时请求更多示例或选项。示例:"share a more short caption."; "share 10 more" 这种格式至关重要:与其使用抽象描述(如“非正式写作者”),可执行指令约束模拟器重现特定的、观察到的行为。命令描述*何种*模式要重现;示例校准*到什么程度*。我们生成了7,275个角色档案(占用户的99.5%)。 ##### 人口统计画像。 每个档案通过两个阶段补充人口统计属性(年龄、教育程度、性别、职业等):(1)GPT-4o从对话文本中提取明确的自我披露信息,通过轨迹间的多数投票聚合;(2)一个混合推理管道从对话线索中预测缺失字段(验证见附录A (https://arxiv.org/html/2605.20204#A1))。三个来源(角色档案、提取的人口统计信息、推断的人口统计信息)合并为7,275个统一档案。 ##### 档案多样性。 图1 (https://arxiv.org/html/2605.20204#S3.F1)显示了基于48个二值语言特征的所有7,273个用户的t-SNE投影,揭示了8种不同的行为原型——从*日常随意型*(简洁、小写、祈使句)到*正式专家型*(领域词汇、礼貌、多句)。这些集群的人口统计数据组成系统性地不同:年轻和低教育程度用户集中在随意和非正式集群,而年长和高教育程度用户集中在正式和结构化集群。这证实了提取的档案捕捉到了真实、结构化的行为多样性,而非噪音。 参见图标题 图1:7,273个用户的语言特征聚类。(a) 48维二值特征向量的t-SNE投影,采用k-means聚类(k=8)。每个聚类代表一个行为原型(例如,C7: 日常随意型, C4: 正式专家型, C6: 非正式短信型, C0: 有组织写手型)。(b, c) 每个聚类中的年龄和教育程度构成,显示了系统性的群体差异:随意/非正式型集群偏向年轻和低教育程度群体,而正式/结构化型集群偏向年长和高教育程度群体。 ### 3.2 基于真实数据的用户模拟及其保真度评估 我们通过合成并行对话并测量其相对于真实对话的行为保真度来评估基于角色档案的用户模拟。对于每次真实对话,GPT-4o首先从前10条消息中提取一个*问题描述*和*解决方案条件*作为共享任务规范。然后,一个模拟用户与一个GPT-4o智能体交互以实现该目标:在**基线**模式下,模拟器仅接收目标;在**含档案**模式下,它还接收用户的统计数据摘要和语言档案。系统提示中包含一条关键的反标准化约束:“不要‘清理’写作。如果命令要求语法混乱和频繁拼写错误,你的回复必须同样杂乱。”对话上限为9条智能体消息。最后,一个LLM评估器(GPT-4o,温度≈0)使用配对行为图灵测试(PT3,如下所述)比较合成对话和原始对话。 #### 3.2.1 配对行为图灵测试(PT3) ###### 定义1(配对审计) 设Th为人类用户H与智能体A之间的历史轨迹。设Ts为基于H的档案约束的模拟用户在与相同智能体A(或高保真代理)在相同场景下交互生成的合成轨迹。评估器在不带标签的情况下接收Th和Ts,并在对话身份的五个维度(表1 (https://arxiv.org/html/2605.20204#S3.T1))上评估一致性,为每个维度分配一个二进制匹配/不匹配判定。终止信号被剥离以避免评估伪影。总体保真度指数是所有维度上的平均匹配率(默认使用等权重)。 表1:PT3保真度评估中使用的对话身份五个维度。 #### 3.2.2 基准设计 基准

相似文章

超越合作模拟器:为LLM代理的稳健评估生成逼真的用户角色

arXiv cs.AI

提出了Persona Policies(PPol),一种即插即用的控制层,利用LLM驱动的进化程序搜索来生成多样且逼真的用户角色,用于评估LLM代理。相比基线实现了33-62%的适应度提升,逼真度评分达到80.4%,并将代理鲁棒性提升了+17%的任务成功率。

AgentViSS:多模态仿真中的视觉社交智能基准测试

arXiv cs.CL

本文介绍了AgentViSS基准,用于评估多模态社交模拟中的视觉社交智能,包含240个场景及对齐的视觉文本证据。评估七个近期MLLM发现局部角色扮演与基于视觉的交互管理之间存在差距。