CollabBench：通过主动参与与多样玩家基准测试并释放LLM协作能力

arXiv cs.CL 2026/06/05 04:00 论文

llm benchmark collaboration multi-agent training cooperative-games

摘要

CollabBench是一个新的基准测试，用于评估和训练LLM智能体在合作游戏中的表现，具有多样玩家模拟和协作训练范式。实验表明，与基础模型相比，效率提高19.5%，情感性能提升24.4%。

arXiv:2606.05793v1 Announce Type: new 摘要：尽管基于LLM的智能体在个体任务中表现出色，但与真实人类伙伴的有效协作仍然具有挑战性。现有的大多数对话级协作研究缺乏基于实际场景的交互和行为执行，因此需要能够实现情境化和沉浸式协作的合作游戏环境。为此，本文提出了CollabBench，一个用于评估和训练合作游戏中协作智能体的基准测试。CollabBench具有多样玩家档案模拟流水线来模拟各种玩家行为，以及一种协作智能体训练范式，通过智能体回滚统一推理、通信和行动，并通过平衡任务效率和情感适应的混合奖励进行优化。我们进一步将经典环境扩展到CWAH-MultiPlayer和Cook-MultiPlayer，以便在不同个性下进行系统评估。使用效率和情感指标的实验表明，我们的训练模型优于基础模型，效率提高19.5%，情感性能提升24.4%。进一步的分析揭示了现有模型的关键协作局限性，并为未来的协作训练提供了见解。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:07

# CollabBench：通过主动参与与不同玩家进行基准测试和释放LLM的协作能力  
来源：https://arxiv.org/abs/2606.05793  
查看PDF (https://arxiv.org/pdf/2606.05793)  

> **摘要：** 尽管基于LLM的智能体在单任务中表现出色，但与真实人类伙伴的有效协作仍然具有挑战性。现有大多数对话级协作研究缺乏基于场景的互动和行为执行，因此需要能够提供情境化和沉浸式协作的合作游戏环境。为此，本文提出了CollabBench，一个用于在合作游戏中评估和训练协作智能体的基准。CollabBench包含一个多样化的玩家画像模拟流水线，用以建模不同的玩家行为，以及一种统一的协作智能体训练范式，通过智能体式展开整合推理、沟通和行动，并采用混合奖励机制来平衡任务效率和情感适应。我们进一步将经典环境扩展为CWAH-MultiPlayer和Cook-MultiPlayer，以在多样化个性下进行系统评估。在效率和情感指标上的实验表明，我们训练的模型优于基础模型，效率提升19.5%，情感表现提升24.4%。进一步分析揭示了现有模型的关键协作局限性，并为未来的协作训练提供了见解。

## 提交历史

来自：刘元浩 [查看电子邮件 (https://arxiv.org/show-email/de5d7bda/2606.05793)] **\[v1\]** 2026年6月4日星期四 07:22:44 UTC (11,475 KB)

CollabBench：通过主动参与与多样玩家基准测试并释放LLM协作能力

相似文章

AgentCollabBench：诊断优秀智能体为何成为糟糕的协作者

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

RoleConflictBench：用于评估大语言模型情境敏感性的角色冲突场景基准

GroupMemBench：多轮对话中LLM代理记忆的基准测试

CulturALL：评测大模型多语言多文化能力的实景基准

提交意见反馈