mllm-agents

标签

Cards List
#mllm-agents

MineExplorer:在《我的世界》中评估多模态大语言模型代理的开放世界探索能力

Hugging Face Daily Papers · 2026-05-29 缓存

MineExplorer基准测试通过多智能体合成设计的原子任务和多跳任务,评估了多模态大语言模型代理在《我的世界》中的开放世界探索能力。实验表明,开放世界探索仍具挑战性,强模型在长轨迹中性能急剧下降。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈