MineExplorer：在《我的世界》中评估多模态大语言模型代理的开放世界探索能力

Hugging Face Daily Papers 2026/05/29 00:00 论文

minecraft mllm-agents open-world-exploration benchmark multi-agent-synthesis evaluation

摘要

MineExplorer基准测试通过多智能体合成设计的原子任务和多跳任务，评估了多模态大语言模型代理在《我的世界》中的开放世界探索能力。实验表明，开放世界探索仍具挑战性，强模型在长轨迹中性能急剧下降。

多模态大语言模型（MLLM）在感知、推理和动作生成方面表现出强大的能力。然而，它们在动态开放世界中持续探索的能力仍不明确。现有的具身和游戏基准测试通常将交互压缩为短视任务，或将成功与特定领域游戏机制纠缠在一起。在本文中，我们引入了MineExplorer基准测试，用于评估MLLM代理在《我的世界》中的开放世界探索能力。我们首先筛选出解决方案高度依赖《我的世界》特有知识的原子任务，以更好地反映通用开放世界推理。然后，我们围绕ReAct式能力框架组织基准测试，并将原子任务组合为隐式多跳任务。为了进一步构建可靠的实例，MineExplorer使用了一种多智能体合成工作流，协同设计任务图、沙盒场景和基于规则的里程碑评估器。人工评估表明，多智能体合成工作流生成的实例比单智能体基线显著更可靠。使用先进MLLM代理的实验表明，开放世界探索仍具挑战性，因为强模型可以处理许多单跳任务，但在需要协调隐藏前提条件的更长轨迹中性能急剧下降。进一步分析发现，任务难度与代理完成度相关，且更大的模型或思考模式并不一致地转化为更好的性能。代码和数据集可在https://github.com/Jometeorie/MineExplorer获取。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:35

论文页面 - MineExplorer：评估MLLM智能体在Minecraft中的开放世界探索能力

来源：https://huggingface.co/papers/2605.30931

摘要

MineExplorer基准通过多智能体合成设计的原子任务和多跳任务，评估多模态大语言模型在Minecraft中的开放世界探索能力。

多模态大语言模型（MLLMs）在感知、推理和动作生成方面展现出强大能力。然而，它们在动态开放世界中维持探索的能力仍不明确。现有的具身化和基于游戏的基准往往将交互压缩为短时任务，或将其成功与特定领域的游戏机制纠缠在一起。本文中，我们引入了MineExplorer基准，用于评估MLLM智能体在Minecraft中的开放世界探索能力。我们首先筛选出那些解决方案高度依赖Minecraft特定知识的原子任务，以更好地反映通用的开放世界推理。然后，我们围绕ReAct风格的能力框架组织基准，并将原子任务组合成隐式的多跳任务。为进一步构建可靠的实例，MineExplorer使用多智能体合成工作流，该工作流联合设计任务图、沙盒场景和基于规则的里程碑评估器。人工评估表明，多智能体合成工作流生成的实例比单智能体基线显著更可靠。使用先进MLLM智能体的实验表明，开放世界探索仍具挑战性：强模型可以处理许多单跳任务，但在需要协调隐藏前提条件的长轨迹中性能急剧下降。进一步分析发现，任务难度与智能体完成度相关，而更大的模型或思维模式并不总能转化为更好的性能。代码和数据集可在 https://github.com/Jometeorie/MineExplorer 获取。

查看arXiv页面 (https://arxiv.org/abs/2605.30931) 查看PDF (https://arxiv.org/pdf/2605.30931) GitHub2 (https://github.com/Jometeorie/MineExplorer) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30931)

在您的智能体中获取此论文：

hf papers read 2605\.30931

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型README.md中引用 arxiv.org/abs/2605.30931，以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集README.md中引用 arxiv.org/abs/2605.30931，以从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

请在Space README.md中引用 arxiv.org/abs/2605.30931，以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

MineExplorer：在《我的世界》中评估多模态大语言模型代理的开放世界探索能力

论文页面 - MineExplorer：评估MLLM智能体在Minecraft中的开放世界探索能力

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

三思而后行：LLM 智能体的自主探索

学习探索：通过探索感知策略优化扩展代理推理

GROW: 将GRPO与状态-动作建模对齐用于开放世界VLM智能体

关于通过元强化学习学习探索的一些思考

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

提交意见反馈