GPTNT：在《Keep Talking and Nobody Explodes》中对多模态代理间实时协作的基准测试

arXiv cs.AI 2026/06/30 04:00 论文

摘要

本文介绍了GPTNT，这是一个基于《Keep Talking and Nobody Explodes》构建的基准测试，要求两个多模态代理在时间压力和信息不对称条件下实时协作，揭示了当前最先进系统的关键弱点。

arXiv:2606.28514v1 Announce Type: new 摘要：多模态模型越来越多地被部署用于与人类或其他人工智能代理协作解决问题。现有基准测试表明，这些模型具备许多所需的组件能力，但协作中同时出现的条件，包括时间压力、信息不对称和不完美沟通，通常是孤立研究的。我们介绍了GPTNT，这是一个基于合作视频游戏《Keep Talking and Nobody Explodes》构建的基准测试，其中两个代理必须协调行动，在实时倒计时中拆除程序生成的炸弹谜题。一个代理可以看见并操作炸弹，但没有拆除说明；另一个代理有说明，但无法看见或操作炸弹。任何一个代理都无法独自成功：成功需要有效且高效的沟通。与回合制代理不同，GPTNT要求代理异步行动并实时沟通。GPTNT的设计旨在将协作与依赖记忆解决方案分离开来：可以隐藏操作手册、合作伙伴或两者，以隔离模型根据当前情况推导出的内容与已知信息。我们发现，GPTNT对最先进的系统构成了重大挑战：我们测试的所有闭源或开源模型都无法实时拆除任何一个炸弹，而人类玩家可以做到这一点。通过受控实验，我们识别出在状态跟踪、时间压力下的高效行动、模糊处理以及错误恢复方面的关键弱点。我们将GPTNT作为协作性能的基准测试发布，当前评估尚未涵盖这一方面。由于它运行在真实游戏中，GPTNT受益于程序生成并继承了一个活跃的模组社区，允许基准测试随着模型的改进而发展，而不是解决一次后就退役。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:31

# GPTNT：在《保持通话，无人爆炸》中对多模态智能体间实时协作的基准测试

来源：https://arxiv.org/abs/2606.28514  
查看PDF (https://arxiv.org/pdf/2606.28514)

> 摘要：多模态模型越来越多地被部署用于与人类或其他人工智能体协作完成任务。现有基准测试表明，这些模型具备许多所需的组件能力，但协作中同时出现的条件——包括时间压力、信息不对称和不完美沟通——通常被孤立研究。我们推出了GPTNT，这是一个基于合作视频游戏《保持通话，无人爆炸》构建的基准测试，其中两个智能体必须协调配合，在实时倒计时中解除程序生成的炸弹谜题。其中一个智能体可以看到并操作炸弹，但没有拆解说明书；另一个拥有说明书，但无法看到或操作炸弹。两个智能体都无法单独成功：成功需要有效且高效的沟通。与回合制代理不同，GPTNT要求智能体异步行动并进行实时通信。GPTNT的设计旨在将协作与对记忆解决方案的依赖分离开来：可以通过隐藏说明书、隐藏搭档或两者都隐藏，来隔离模型即时推导出的内容与其已知内容。我们表明，GPTNT对现有最先进系统构成了重大挑战：我们测试的所有闭源或开源模型都无法实时拆除任何一枚炸弹，而人类玩家可以轻松做到。通过受控实验，我们识别出了在状态跟踪、时间压力下的高效行动、模糊处理以及错误恢复方面的关键弱点。我们将GPTNT作为一个协作性能基准测试发布，当前评估尚未涵盖这些方面。由于它运行在真实游戏之上，GPTNT得益于程序化生成，并继承了活跃的模组社区，使得基准测试能够随着模型的改进而进化，而非一次性解决后便废弃。

## 提交历史

来自：Sabrina McCallum [查看邮箱 (https://arxiv.org/show-email/b7432e5f/2606.28514)]  
**[v1]** 2026年6月26日星期五 18:09:36 UTC（37,637 KB）

GPTNT：在《Keep Talking and Nobody Explodes》中对多模态代理间实时协作的基准测试

相似文章

Minecraft中面向时间敏感互补协作的多智能体框架

衡量智能体之间的对抗与协作

AgentCollabBench：诊断优秀智能体为何成为糟糕的协作者

GAMBIT：用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准

GroupMemBench：多轮对话中LLM代理记忆的基准测试

提交意见反馈