CollabBench:通过主动参与与多样玩家基准测试并释放LLM协作能力
摘要
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。
arXiv:2606.05793v1 Announce Type: new
摘要:尽管基于LLM的智能体在个体任务中表现出色,但与真实人类伙伴的有效协作仍然具有挑战性。现有的大多数对话级协作研究缺乏基于实际场景的交互和行为执行,因此需要能够实现情境化和沉浸式协作的合作游戏环境。为此,本文提出了CollabBench,一个用于评估和训练合作游戏中协作智能体的基准测试。CollabBench具有多样玩家档案模拟流水线来模拟各种玩家行为,以及一种协作智能体训练范式,通过智能体回滚统一推理、通信和行动,并通过平衡任务效率和情感适应的混合奖励进行优化。我们进一步将经典环境扩展到CWAH-MultiPlayer和Cook-MultiPlayer,以便在不同个性下进行系统评估。使用效率和情感指标的实验表明,我们的训练模型优于基础模型,效率提高19.5%,情感性能提升24.4%。进一步的分析揭示了现有模型的关键协作局限性,并为未来的协作训练提供了见解。
查看缓存全文
缓存时间: 2026/06/05 08:07
# CollabBench:通过主动参与与不同玩家进行基准测试和释放LLM的协作能力 来源:https://arxiv.org/abs/2606.05793 查看PDF (https://arxiv.org/pdf/2606.05793) > **摘要:** 尽管基于LLM的智能体在单任务中表现出色,但与真实人类伙伴的有效协作仍然具有挑战性。现有大多数对话级协作研究缺乏基于场景的互动和行为执行,因此需要能够提供情境化和沉浸式协作的合作游戏环境。为此,本文提出了CollabBench,一个用于在合作游戏中评估和训练协作智能体的基准。CollabBench包含一个多样化的玩家画像模拟流水线,用以建模不同的玩家行为,以及一种统一的协作智能体训练范式,通过智能体式展开整合推理、沟通和行动,并采用混合奖励机制来平衡任务效率和情感适应。我们进一步将经典环境扩展为CWAH-MultiPlayer和Cook-MultiPlayer,以在多样化个性下进行系统评估。在效率和情感指标上的实验表明,我们训练的模型优于基础模型,效率提升19.5%,情感表现提升24.4%。进一步分析揭示了现有模型的关键协作局限性,并为未来的协作训练提供了见解。 ## 提交历史 来自:刘元浩 [查看电子邮件 (https://arxiv.org/show-email/de5d7bda/2606.05793)] **\[v1\]** 2026年6月4日星期四 07:22:44 UTC (11,475 KB)
相似文章
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
RoleConflictBench:用于评估大语言模型情境敏感性的角色冲突场景基准
RoleConflictBench 是一个新颖的基准,包含 13,000+ 个场景和 65 个角色,旨在评估大语言模型在多个社会期望相互冲突的角色冲突情境中的情境敏感性。对 10 个大语言模型的分析表明,这些模型主要依赖于学习到的角色偏好,而非动态的情境线索来做决策。
GroupMemBench:多轮对话中LLM代理记忆的基准测试
GroupMemBench是一个新的基准,用于评估多轮对话中LLM代理的记忆能力,揭示了当前记忆系统的缺陷,最佳系统仅达到46%的平均准确率。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。