标签
论文提出了TickingCollabBench,这是一个基于Minecraft的多智能体基准测试,用于动态环境中的时间敏感互补协作任务,并展示了与全局知识预言机相比,大语言模型在此类条件下经常失败。