open-world-exploration

#open-world-exploration

MineExplorer：在《我的世界》中评估多模态大语言模型代理的开放世界探索能力

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

MineExplorer基准测试通过多智能体合成设计的原子任务和多跳任务，评估了多模态大语言模型代理在《我的世界》中的开放世界探索能力。实验表明，开放世界探索仍具挑战性，强模型在长轨迹中性能急剧下降。

0 人收藏 0 人点赞