标签
MineExplorer基准测试通过多智能体合成设计的原子任务和多跳任务,评估了多模态大语言模型代理在《我的世界》中的开放世界探索能力。实验表明,开放世界探索仍具挑战性,强模型在长轨迹中性能急剧下降。