标签
本文介绍了GPTNT,这是一个基于《Keep Talking and Nobody Explodes》构建的基准测试,要求两个多模态代理在时间压力和信息不对称条件下实时协作,揭示了当前最先进系统的关键弱点。