MineExplorer:在《我的世界》中评估多模态大语言模型代理的开放世界探索能力
摘要
MineExplorer基准测试通过多智能体合成设计的原子任务和多跳任务,评估了多模态大语言模型代理在《我的世界》中的开放世界探索能力。实验表明,开放世界探索仍具挑战性,强模型在长轨迹中性能急剧下降。
查看缓存全文
缓存时间: 2026/06/02 15:35
论文页面 - MineExplorer:评估MLLM智能体在Minecraft中的开放世界探索能力
来源:https://huggingface.co/papers/2605.30931
摘要
MineExplorer基准通过多智能体合成设计的原子任务和多跳任务,评估多模态大语言模型在Minecraft中的开放世界探索能力。
多模态大语言模型(MLLMs)在感知、推理和动作生成方面展现出强大能力。然而,它们在动态开放世界中维持探索的能力仍不明确。现有的具身化和基于游戏的基准往往将交互压缩为短时任务,或将其成功与特定领域的游戏机制纠缠在一起。本文中,我们引入了MineExplorer基准,用于评估MLLM智能体在Minecraft中的开放世界探索能力。我们首先筛选出那些解决方案高度依赖Minecraft特定知识的原子任务,以更好地反映通用的开放世界推理。然后,我们围绕ReAct风格的能力框架组织基准,并将原子任务组合成隐式的多跳任务。为进一步构建可靠的实例,MineExplorer使用多智能体合成工作流,该工作流联合设计任务图、沙盒场景和基于规则的里程碑评估器。人工评估表明,多智能体合成工作流生成的实例比单智能体基线显著更可靠。使用先进MLLM智能体的实验表明,开放世界探索仍具挑战性:强模型可以处理许多单跳任务,但在需要协调隐藏前提条件的长轨迹中性能急剧下降。进一步分析发现,任务难度与智能体完成度相关,而更大的模型或思维模式并不总能转化为更好的性能。代码和数据集可在 https://github.com/Jometeorie/MineExplorer 获取。
查看arXiv页面 (https://arxiv.org/abs/2605.30931) 查看PDF (https://arxiv.org/pdf/2605.30931) GitHub2 (https://github.com/Jometeorie/MineExplorer) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30931)
在您的智能体中获取此论文:
hf papers read 2605\.30931
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
请在模型README.md中引用 arxiv.org/abs/2605.30931,以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集README.md中引用 arxiv.org/abs/2605.30931,以从此页面链接。
引用此论文的Spaces0
没有Space链接此论文
请在Space README.md中引用 arxiv.org/abs/2605.30931,以从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
三思而后行:LLM 智能体的自主探索
本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
GROW: 将GRPO与状态-动作建模对齐用于开放世界VLM智能体
GROW提出了一种新颖的强化学习框架,通过将轨迹分解为状态-动作对并计算它们之间的优势,将GRPO适配到多轮VLM智能体任务中,在超过800个Minecraft任务上实现了最先进的性能。
关于通过元强化学习学习探索的一些思考
OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,