MineExplorer:在《我的世界》中评估多模态大语言模型代理的开放世界探索能力

Hugging Face Daily Papers 论文

摘要

MineExplorer基准测试通过多智能体合成设计的原子任务和多跳任务,评估了多模态大语言模型代理在《我的世界》中的开放世界探索能力。实验表明,开放世界探索仍具挑战性,强模型在长轨迹中性能急剧下降。

多模态大语言模型(MLLM)在感知、推理和动作生成方面表现出强大的能力。然而,它们在动态开放世界中持续探索的能力仍不明确。现有的具身和游戏基准测试通常将交互压缩为短视任务,或将成功与特定领域游戏机制纠缠在一起。在本文中,我们引入了MineExplorer基准测试,用于评估MLLM代理在《我的世界》中的开放世界探索能力。我们首先筛选出解决方案高度依赖《我的世界》特有知识的原子任务,以更好地反映通用开放世界推理。然后,我们围绕ReAct式能力框架组织基准测试,并将原子任务组合为隐式多跳任务。为了进一步构建可靠的实例,MineExplorer使用了一种多智能体合成工作流,协同设计任务图、沙盒场景和基于规则的里程碑评估器。人工评估表明,多智能体合成工作流生成的实例比单智能体基线显著更可靠。使用先进MLLM代理的实验表明,开放世界探索仍具挑战性,因为强模型可以处理许多单跳任务,但在需要协调隐藏前提条件的更长轨迹中性能急剧下降。进一步分析发现,任务难度与代理完成度相关,且更大的模型或思考模式并不一致地转化为更好的性能。代码和数据集可在https://github.com/Jometeorie/MineExplorer获取。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:35

论文页面 - MineExplorer:评估MLLM智能体在Minecraft中的开放世界探索能力

来源:https://huggingface.co/papers/2605.30931

摘要

MineExplorer基准通过多智能体合成设计的原子任务和多跳任务,评估多模态大语言模型在Minecraft中的开放世界探索能力。

多模态大语言模型(MLLMs)在感知、推理和动作生成方面展现出强大能力。然而,它们在动态开放世界中维持探索的能力仍不明确。现有的具身化和基于游戏的基准往往将交互压缩为短时任务,或将其成功与特定领域的游戏机制纠缠在一起。本文中,我们引入了MineExplorer基准,用于评估MLLM智能体在Minecraft中的开放世界探索能力。我们首先筛选出那些解决方案高度依赖Minecraft特定知识的原子任务,以更好地反映通用的开放世界推理。然后,我们围绕ReAct风格的能力框架组织基准,并将原子任务组合成隐式的多跳任务。为进一步构建可靠的实例,MineExplorer使用多智能体合成工作流,该工作流联合设计任务图、沙盒场景和基于规则的里程碑评估器。人工评估表明,多智能体合成工作流生成的实例比单智能体基线显著更可靠。使用先进MLLM智能体的实验表明,开放世界探索仍具挑战性:强模型可以处理许多单跳任务,但在需要协调隐藏前提条件的长轨迹中性能急剧下降。进一步分析发现,任务难度与智能体完成度相关,而更大的模型或思维模式并不总能转化为更好的性能。代码和数据集可在 https://github.com/Jometeorie/MineExplorer 获取。

查看arXiv页面 (https://arxiv.org/abs/2605.30931) 查看PDF (https://arxiv.org/pdf/2605.30931) GitHub2 (https://github.com/Jometeorie/MineExplorer) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30931)

在您的智能体中获取此论文:

hf papers read 2605\.30931

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型README.md中引用 arxiv.org/abs/2605.30931,以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集README.md中引用 arxiv.org/abs/2605.30931,以从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

请在Space README.md中引用 arxiv.org/abs/2605.30931,以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

三思而后行:LLM 智能体的自主探索

Hugging Face Daily Papers

本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。

关于通过元强化学习学习探索的一些思考

OpenAI Blog

OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

Hugging Face Daily Papers

# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,