WISE: 一种基于Why-Which推理的Minecraft长视距智能体

arXiv cs.AI 2026/06/12 04:00 论文

minecraft embodied-agent long-horizon causal-reasoning llm hierarchical-planning episodic-memory

摘要

WISE提出了一种用于Minecraft的长视距智能体框架，通过因果事件图增强低级控制器的情景记忆，使其能够在视角变化下稳健回忆，并通过因果推理实现机会性任务重排序。该框架还采用了多尺度渐进探索策略，在长视距稀疏任务上展示了更高的成功率和效率。

arXiv:2606.12852v1 Announce Type: new 摘要：通过采用大语言模型增强的分层方法，在Minecraft等环境中开发通用具身智能体方面取得了快速进展。尽管前景广阔，但低级控制器往往因重复执行失败而成为性能瓶颈。我们认为，一个关键限制不仅在于缺乏情景记忆，还在于将\textit{what-where-when}记忆与\textit{which-why}推理相分离。为了解决这一问题，我们提出了\textbf{WISE} (Which-Why Informed Semantic Explorer)，一种长视距智能体框架，其增强的低级控制器配备了因果事件图，通过显式的因果结构将观察与任务相关性联系起来，从而增强情景记忆。与之前依赖特征相似性进行检索的MrSteve等工作不同，WISE能够在视角变化下实现稳健回忆，并通过因果推理支持机会性任务重排序。基于这种记忆，我们提出了一种机会性任务调度器，当检测到因果相关机会时，动态重新优先排序子任务。我们进一步为WISE配备了多尺度渐进探索策略，为下游推理提供空间上全面的观察。实验表明，WISE在长视距稀疏任务上显著提高了任务成功率和效率，特别是在需要自适应决策的场景中。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:53

# WISE：基于Why-Which推理的Minecraft长周期智能体

**来源**：https://arxiv.org/html/2606.12852

**任敏成** renmin@stu\.xidian\.edu\.cn  
西安电子科技大学  

**陈昌浩** changhaochen@hkust\-gz\.edu\.cn  
香港科技大学（广州）  

###### 摘要

通过采用LLM增强的分层方法，在Minecraft等环境中开发通用具身智能体取得了快速进展。尽管前景光明，但低级控制器常因重复执行失败而成为性能瓶颈。我们认为，一个关键限制不仅在于缺乏情景记忆，还在于将“什么-哪里-何时”记忆与“哪个-为什么”推理相分离。为解决此问题，我们提出了**WISE**（Which-Why Informed Semantic Explorer，即“哪个-为什么”信息语义探索器），一种长周期智能体框架，其增强的低级控制器配备了因果事件图，通过将观察与任务相关性的显式因果结构相结合来增强情景记忆。与之前依赖特征相似性进行检索的MrSteve等工作不同，WISE能够在视角变化下实现鲁棒的回忆，并通过因果推理支持机会主义的任务重排序。基于此记忆，我们提出了一种机会主义任务调度器，当检测到因果相关的机会时，能够动态地重新优先排序子任务。我们还为WISE配备了一种多尺度渐进探索策略，为下游推理提供空间上全面的观察。实验表明，WISE在长周期稀疏任务上大幅提升了任务成功率和效率，特别是在需要自适应决策的场景中。

## 1 引言

参考图注

**图1：WISE与先前方法在三个关键能力上的比较。**  
**因果记忆回忆**：WISE通过利用显式因果知识（牛→牛肉）回忆之前观察到的牛，而MrSteve仅依赖视觉相似性。  
**机会主义任务执行**：WISE动态重排序任务队列以利用偶然遭遇（例如，立即杀死附近的牛），而先前方法则严格遵循预定义的任务序列。  
**视角变化下的鲁棒回忆**：WISE采用对视角变化不变的语义实体表示，能够从不同角度一致地识别牛；先前方法依赖原始视觉特征，常在视角变化下失败。绿色勾表示成功行为。

构建能够在复杂、开放环境中解决长周期任务的一般性具身智能体仍然是人工智能中的一个根本性挑战。Minecraft已成为研究此问题的突出基准，因为它呈现了一个程序生成的世界，具有丰富的交互动态，需要探索、资源获取、工具制作和长期规划[Guss等人 (2019)](https://arxiv.org/html/2606.12852#bib.bib5)；[Fan等人 (2022)](https://arxiv.org/html/2606.12852#bib.bib24)；[Baker等人 (2022)](https://arxiv.org/html/2606.12852#bib.bib7)。即使是看似简单的目标，如“获取牛肉”，也需要多步骤推理：智能体必须首先推断牛肉与牛之间的语义联系，然后探索稀疏的生物群系以定位牛群，穿越复杂地形，进行交互或战斗，最后收集所得资源。任何阶段（例如，丢失目标实体）的失败通常会导致代价高昂的重新探索。更复杂的任务，如获取钻石，可能需要数万步环境交互[Lifshitz等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib8)，由于奖励稀疏且探索空间巨大，从头开始的强化学习变得极其困难。

最近的进展表明，大型语言模型（LLM）增强的分层框架提供了一种有前景的解决方案[Wang等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib19)；[Zhou等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib42)。这些系统将长周期任务分解为两个层级：一个利用LLM推理生成子目标的高级规划器，以及一个执行这些子目标的低级控制器。这种分解大大降低了任务复杂度，并在具身决策中取得了显著进展。然而，要使此类框架成功，高级规划和低级执行必须共同改进。现有研究主要集中在通过技能库[Zhu等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib25)；[Wang等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib19)；[Qin等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib11)、多模态经验存储库[Li等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib15)或日益强大的语言推理模块来增强高级规划。相比之下，对低级控制器的关注相对较少，而低级控制器在实践中常常成为主要瓶颈[Cai等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib13)。现有方法通常假设一旦生成子目标，控制器就能可靠且高效地执行它——这种假设在大型、稀疏的环境中往往不成立。

最近解决此限制的一个尝试是MrSteve[Park等人 (2025)](https://arxiv.org/html/2606.12852#bib.bib9)，它为Steve-1增加了地点事件记忆（PEM）。PEM根据**什么**发生了、**哪里**发生了以及**何时**观察到的来组织过去的观察，从而能够检索以前遇到过的地点和事件。例如，智能体可能记得之前在一片森林区域看到过一头牛，之后可以导航回到那个位置。然而，我们认为，主要的限制不仅仅是记忆容量本身，还在于缺乏对记忆的语义和因果推理。现有系统[Wang等人](https://arxiv.org/html/2606.12852#bib.bib10)；[Zhu等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib25)；[Park等人 (2025)](https://arxiv.org/html/2606.12852#bib.bib9)将情景回忆与决策制定分离开来。PEM使用MineCLIP视觉特征与任务嵌入之间的余弦相似度来检索观察结果，导致两个关键缺陷。首先，基于原始视觉相似性的检索在语义上是脆弱的：视角变化、遮挡[Cai等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib13)；[Zhou等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib42)或环境条件常常导致记忆回忆失败。其次，PEM存储观察结果而不表示其因果含义。记忆可能记录之前观察到了一头牛，但无法推断为什么这个观察很重要——即牛可以提供牛肉。因此，当未来的任务是“获取牛肉”时，智能体缺乏识别之前遇到的牛作为相关机会的机制。

更根本地，现有控制器[Lifshitz等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib8)；[Park等人 (2025)](https://arxiv.org/html/2606.12852#bib.bib9)根据固定的动作序列执行子目标，无法回答以下问题：根据新获得的信息，现在应该执行**哪个**动作？考虑一个正在前往收集木材的智能体，它意外遇到了一头牛。理想的智能体应该立即认识到这次遭遇为满足未来的子目标创造了机会。现有系统[Qin等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib11)；[Yuan等人](https://arxiv.org/html/2606.12852#bib.bib12)；[Li等人 (2025)](https://arxiv.org/html/2606.12852#bib.bib3)则继续执行预定的序列，之后返回，造成了不必要的导航成本。探索、记忆和规划作为不连贯的模块运行；因此，整个系统未能利用它们之间的协同作用。

在这项工作中，我们引入了**WISE**（Which-Why Informed Semantic Explorer，即“哪个-为什么”信息语义探索器），一个长周期智能体框架，它闭环了探索、记忆和决策制定之间的循环。如图1所示，WISE用显式的语义和因果结构扩展了传统的情景记忆，使智能体不仅能够记住**什么**、**哪里**和**何时**，还能理解**为什么**一个观察很重要以及它可能使能**哪个**未来任务。WISE的核心是一个**因果事件图**，一种语义记忆结构，它用视觉语言模型（VLM）提取的显式因果关系统一增强情景观察。该图不将观察存储为孤立的视觉记忆，而是通过因果边（例如，牛→`CAN_OBTAIN`→牛肉）将实体与下游任务结果联系起来。这种语义层实现了基于因果的检索，并将记忆从被动存储转变为可操作的知识。

基于这种表示，我们引入了一个**机会主义任务调度器**，它持续对因果记忆进行推理，并动态地重新优先排序待处理的子任务。调度器不严格遵循预定义的执行序列，而是适应新观察到的机会。当出现因果相关的实体时，WISE立即更新其任务优先级并在线利用该机会，从而避免冗余导航并提高长周期效率。最后，为了用足够丰富的观察支持这一推理过程，我们引入了一种**多尺度渐进探索策略**，该策略在最小化重复访问的同时高效地扩展环境覆盖范围。

探索、记忆和调度共同形成了一个闭环架构：探索获取观察，记忆将观察转化为因果知识，而规划则利用这些知识进行自适应决策。在大型Minecraft环境中的大量实验证明了WISE的有效性。与当前最先进的低级控制器MrSteve [Park等人 (2025)](https://arxiv.org/html/2606.12852#bib.bib9)相比，WISE在探索覆盖率上提升了14%，在顺序稀疏任务完成率上提升了30%且完成时间降低了26.4%，在自适应的非顺序任务完成率上提升了44%且完成时间降低了42.5%。消融研究进一步表明，WISE完整模型的性能显著超过各个模块改进的总和，这表明因果事件图、机会主义任务调度器和多尺度渐进探索组件之间存在强大的协同作用。

我们的贡献如下：

1. 我们确定了长周期具身智能体中一个关键但未被充分探索的限制：情景记忆与因果决策制定之间的脱节。我们认为，一个有效的低级控制器必须超越记住**什么**、**哪里**和**何时**，而是推理**为什么**观察重要以及它们使能**哪个**未来动作。
2. 我们提出了**WISE**，一个统一的具身框架，闭环了探索、记忆和规划。其核心是一个因果事件图，用VLM衍生的语义和因果关系增强情景记忆，从而实现鲁棒的检索和基于因果的推理。
3. 我们引入了一个**机会主义任务调度器**，根据因果相关性动态地重新优先排序子任务，将低级控制器从严格的执行者转变为能够利用新出现机会的自适应决策者。
4. 我们提出了一种**多尺度渐进探索策略**，提高了覆盖效率，同时为推理模块提供空间上全面的观察，以支持长周期决策。

## 2 相关工作

### 2.1 Minecraft中的低级控制

早期工作训练策略模型以完成简单的Minecraft任务[Guss等人 (2019)](https://arxiv.org/html/2606.12852#bib.bib5)。VPT [Baker等人 (2022)](https://arxiv.org/html/2606.12852#bib.bib7)表明，可以从大规模未标记的在线视频中学习视觉到动作的映射。Steve-1 [Lifshitz等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib8)通过条件化文本指令扩展了VPT。GROOT [Cai等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib29)使用参考视频而非文本进行目标条件控制。MineDreamer [Zhou等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib42)利用Steve-1生成子目标图像以更好地执行。最近的研究侧重于增加控制器的架构复杂性和适应性。STEVE系列 [Zhao等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib6)系统地探索了规划粒度与观察编码之间的相互作用。Odyssey [Liu等人 (2025)](https://arxiv.org/html/2606.12852#bib.bib4)和LARM [Li等人 (2025)](https://arxiv.org/html/2606.12852#bib.bib3)引入了开放世界技能库和自回归模型，以弥合反应式控制与长周期审议规划之间的差距。ADAM [Yu and Lu](https://arxiv.org/html/2606.12852#bib.bib17)和Steve-Evolving [Xie等人 (2026)](https://arxiv.org/html/2606.12852#bib.bib2)代表了这一方向的前沿：前者通过交互构建因果图，而后者将执行诊断提炼为可重用的护栏和技能。然而，这些系统往往将记忆视为高级知识存储，而不是低级执行的集成组件。MrSteve [Park等人 (2025)](https://arxiv.org/html/2606.12852#bib.bib9)引入了地点事件记忆（PEM）为低级控制器提供情景上下文，但其检索依赖于原始视觉相似性。WISE通过将PEM扩展为因果事件图来解决这一问题，使控制器能够推理出记忆与未来任务的相关性原因。

### 2.2 智能体中的记忆

记忆对于长周期任务至关重要，许多研究探索了具身智能体的不同存储和检索机制。[Sumers等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib16)提出了一个框架，将智能体记忆分为三类：上下文内记忆、外部记忆和权重内记忆。他们强调了检索准确性与更新速度之间的权衡，这直接促使了WISE中两级检索的设计。在规划层面，已经开发了几种记忆系统。Voyager [Wang等人](https://arxiv.org/html/2606.12852#bib.bib10)在多个周期中存储可重用的技能程序，实现了Minecraft中无需人工干预的终身学习。GITM [Zhu等人 (2023)](https://arxiv.org/html/2606.12852#bib.bib25)使用结构化世界知识来改进技术树任务的目标分解。JARVIS-1 [Wang等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib14)和MP5 [Qin等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib11)存储多模态观察和成功计划以实现情境感知检索，其中JARVIS-1表明多模态目标规范大大提高了检索精度。Optimus-1 [Li等人 (2024)](https://arxiv.org/html/2606.12852#bib.bib15)引入了一个混合记忆池，总结了视觉、文本和动作轨迹，在长周期基准测试中取得了强劲的结果。尽管有这些进展，大多数现有记忆系统侧重于高级规划——它们存储**哪个**计划有效，而不是**为什么**特定的低级观察重要。MrSteve的PEM是第一个为低级控制设计的记忆系统，但它仍然基于原始视觉特征检索记忆。WISE通过构建因果事件图来填补这一空白，该图通过显式的因果边将低级观察与高级目标连接起来。一个相关的

WISE: 一种基于Why-Which推理的Minecraft长视距智能体

相似文章

MineExplorer：在《我的世界》中评估多模态大语言模型代理的开放世界探索能力

SAM：面向长程推理智能体的状态自适应记忆

弱链优化：多智能体推理与协作框架

Visual Para-Thinker++: 视觉推理的单策略多智能体框架

MAP：一种用于长周期交互式智能体推理的“先绘图后行动”范式

提交意见反馈