GPTNT:在《Keep Talking and Nobody Explodes》中对多模态代理间实时协作的基准测试
摘要
本文介绍了GPTNT,这是一个基于《Keep Talking and Nobody Explodes》构建的基准测试,要求两个多模态代理在时间压力和信息不对称条件下实时协作,揭示了当前最先进系统的关键弱点。
arXiv:2606.28514v1 Announce Type: new
摘要:多模态模型越来越多地被部署用于与人类或其他人工智能代理协作解决问题。现有基准测试表明,这些模型具备许多所需的组件能力,但协作中同时出现的条件,包括时间压力、信息不对称和不完美沟通,通常是孤立研究的。我们介绍了GPTNT,这是一个基于合作视频游戏《Keep Talking and Nobody Explodes》构建的基准测试,其中两个代理必须协调行动,在实时倒计时中拆除程序生成的炸弹谜题。一个代理可以看见并操作炸弹,但没有拆除说明;另一个代理有说明,但无法看见或操作炸弹。任何一个代理都无法独自成功:成功需要有效且高效的沟通。与回合制代理不同,GPTNT要求代理异步行动并实时沟通。GPTNT的设计旨在将协作与依赖记忆解决方案分离开来:可以隐藏操作手册、合作伙伴或两者,以隔离模型根据当前情况推导出的内容与已知信息。我们发现,GPTNT对最先进的系统构成了重大挑战:我们测试的所有闭源或开源模型都无法实时拆除任何一个炸弹,而人类玩家可以做到这一点。通过受控实验,我们识别出在状态跟踪、时间压力下的高效行动、模糊处理以及错误恢复方面的关键弱点。我们将GPTNT作为协作性能的基准测试发布,当前评估尚未涵盖这一方面。由于它运行在真实游戏中,GPTNT受益于程序生成并继承了一个活跃的模组社区,允许基准测试随着模型的改进而发展,而不是解决一次后就退役。
查看缓存全文
缓存时间: 2026/06/30 05:31
# GPTNT:在《保持通话,无人爆炸》中对多模态智能体间实时协作的基准测试 来源:https://arxiv.org/abs/2606.28514 查看PDF (https://arxiv.org/pdf/2606.28514) > 摘要:多模态模型越来越多地被部署用于与人类或其他人工智能体协作完成任务。现有基准测试表明,这些模型具备许多所需的组件能力,但协作中同时出现的条件——包括时间压力、信息不对称和不完美沟通——通常被孤立研究。我们推出了GPTNT,这是一个基于合作视频游戏《保持通话,无人爆炸》构建的基准测试,其中两个智能体必须协调配合,在实时倒计时中解除程序生成的炸弹谜题。其中一个智能体可以看到并操作炸弹,但没有拆解说明书;另一个拥有说明书,但无法看到或操作炸弹。两个智能体都无法单独成功:成功需要有效且高效的沟通。与回合制代理不同,GPTNT要求智能体异步行动并进行实时通信。GPTNT的设计旨在将协作与对记忆解决方案的依赖分离开来:可以通过隐藏说明书、隐藏搭档或两者都隐藏,来隔离模型即时推导出的内容与其已知内容。我们表明,GPTNT对现有最先进系统构成了重大挑战:我们测试的所有闭源或开源模型都无法实时拆除任何一枚炸弹,而人类玩家可以轻松做到。通过受控实验,我们识别出了在状态跟踪、时间压力下的高效行动、模糊处理以及错误恢复方面的关键弱点。我们将GPTNT作为一个协作性能基准测试发布,当前评估尚未涵盖这些方面。由于它运行在真实游戏之上,GPTNT得益于程序化生成,并继承了活跃的模组社区,使得基准测试能够随着模型的改进而进化,而非一次性解决后便废弃。 ## 提交历史 来自:Sabrina McCallum [查看邮箱 (https://arxiv.org/show-email/b7432e5f/2606.28514)] **[v1]** 2026年6月26日星期五 18:09:36 UTC(37,637 KB)
相似文章
Minecraft中面向时间敏感互补协作的多智能体框架
论文提出了TickingCollabBench,这是一个基于Minecraft的多智能体基准测试,用于动态环境中的时间敏感互补协作任务,并展示了与全局知识预言机相比,大语言模型在此类条件下经常失败。
衡量智能体之间的对抗与协作
作者搭建了一个名为 Glomz 的平台,在该平台中,具有不同能力的 AI 智能体在竞技场环境中互相审查代码。实验揭示了诸如评审级联和跨模型洞察等涌现行为,但也暴露了编排和参与率方面的挑战。
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
GAMBIT:用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准
本文介绍了 GAMBIT,这是一个用于评估多智能体 LLM 集体中对抗鲁棒性的基准测试。该基准包含自适应冒名顶替者(imposter)和重新校准(recalibration)模式,旨在解决现有浅层评估方法的局限性。
GroupMemBench:多轮对话中LLM代理记忆的基准测试
GroupMemBench是一个新的基准,用于评估多轮对话中LLM代理的记忆能力,揭示了当前记忆系统的缺陷,最佳系统仅达到46%的平均准确率。