超越下一观测预测:面向顺序决策的智能体自主世界建模
摘要
本文提出了一种名为“智能体自主世界建模”(AAWM)的训练流程,该流程基于策略自身的决策需求构建世界模型监督,而非依赖下一观测预测,从而使学习目标与有效决策所需的动态特性对齐。
查看缓存全文
缓存时间: 2026/06/25 05:11
# 自适应世界建模:面向序列决策的智能体自构建方法 来源:https://arxiv.org/html/2606.25421 ## 超越下一观察预测:面向序列决策的智能体自构建世界建模 蔡光峰1,杨凯彬1,何硕2,李煜1,杨胜天1,吕嘉琦1,冯磊1 1东南大学,2美团 \{cgfeng,fenglei\}@seu\.edu\.cn ###### 摘要 近期关于大语言模型(LLM)智能体世界建模的研究通常将学习目标设定为下一观察预测。然而,这一目标将监督信号与转换过程恰好揭示的内容绑定,可能忽略了与智能体当前决策最相关的动态信息。为弥补这一不足,我们提出智能体自构建世界建模(AAWM),一种从策略自身决策需求出发构建监督信号的训练流程。具体而言,在每个状态下,智能体在行动前识别出需要理解的环境要素。这些需求驱动其在多条轨迹中检索相关的转换证据,进而合成训练目标,以捕捉面向决策的动态信息,而非重建下一观察。这样,训练目标与策略在行动前所需的动态信息对齐,而非与下一观察的内容对齐。实验结果表明,AAWM在多种环境和训练设置下均有效。这些结果说明,相比下一观察预测,决策感知的世界模型目标能提供更有效的学习信号。 超越下一观察预测:面向序列决策的智能体自构建世界建模 蔡光峰1,杨凯彬1,何硕2,李煜1,杨胜天1,吕嘉琦1,冯磊1††感谢:通讯作者。1东南大学,2美团 \{cgfeng,fenglei\}@seu\.edu\.cn ## 1 引言 LLM智能体 (Achiam等人,2023 (https://arxiv.org/html/2606.25421#bib.bib31); Team等人,2025 (https://arxiv.org/html/2606.25421#bib.bib35); Glm等人,2024 (https://arxiv.org/html/2606.25421#bib.bib34); Liu等人,2024 (https://arxiv.org/html/2606.25421#bib.bib33)) 越来越多地运行在需要多轮交互以收集信息并完成任务的部分可观测环境中。在此类设置下,成功不仅依赖于选择流畅的动作,还依赖于对环境动态的表征:哪些动作有效、哪些状态变量持续存在、哪些观察对下一步决策至关重要。因此,近期工作微调大语言模型以预测环境的下一响应,将此目标视为世界建模 (Zhang等人,2025 (https://arxiv.org/html/2606.25421#bib.bib1); Li等人,2025 (https://arxiv.org/html/2606.25421#bib.bib2))。其基本假设是:更好地预测环境下一步输出将产生更好的动作选择。 参见图注 图1:下一观察预测与AAWM的比较。下一观察预测针对每个动作返回的观察进行训练,因此目标由环境恰好揭示的内容决定。AAWM询问策略在行动前需要知道什么,并编写描述决策所需动态的目标。 这一假设忽略了预测与决策之间的一个关键区别:策略通常需要的是影响其下一步动作的状态信息,而非下一观察的完整重建 (Nair等人,2020 (https://arxiv.org/html/2606.25421#bib.bib26))。此外,Li等人 (2024 (https://arxiv.org/html/2606.25421#bib.bib5)) 表明,优化模型以实现目标导向行为会降低其预测准确性,这表明预测质量与决策质量并非同一个目标。这引出了一个核心的目标选择问题:在行动前,策略在世界模型目标中需要哪些环境动态?先前的工作大多通过改变目标形式来解决此问题。一些方法将观察压缩成语义未来表征 (Berg等人,2025 (https://arxiv.org/html/2606.25421#bib.bib4)),总结转换级别的状态变化 (Chae等人,2025 (https://arxiv.org/html/2606.25421#bib.bib8)),或为下游规划添加任务信息 (Qiao等人,2024 (https://arxiv.org/html/2606.25421#bib.bib15))。这些目标通常比原始下一观察更紧凑或更利于规划,但其内容仍由数据集中暴露的转换决定。因此,训练目标仍然是环境驱动的而非决策驱动的:它反映的是环境恰好揭示的内容,而非策略在行动前需要理解的内容。 为解决此问题,我们提出AAWM(智能体自构建世界建模),一种从策略当前决策需求出发构建训练目标的训练流程。图1 (https://arxiv.org/html/2606.25421#S1.F1) 展示了与下一观察预测的差异。在每个状态下,策略首先阐述其关于环境动态的信念以及答案可能改变下一步动作的开放性问题。这些陈述作为检索查询,在转换记录池中检索关于所查询动态的证据。检索到的证据,连同当前转换和策略的陈述,被合成为一个描述决策导向动态的自然语言目标。在这些目标上微调,鼓励策略表征对动作选择重要的动态,而不仅仅是重建下一观察。 我们在ALFWorld和WebShop上以两种模型规模评估AAWM。在相同的模仿学习和强化学习设置下,AAWM持续优于下一观察世界建模,在两个环境上分别取得高达6.3和6.2个成功率的提升。单独的AgentGym评估 (Xi等人,2025 (https://arxiv.org/html/2606.25421#bib.bib55)) 在四个环境中确认,AAWM是唯一在所有设置下均优于模仿学习的世界建模初始化方法。组件消融实验表明,自探针、转换检索和世界建模微调各自对最终增益有所贡献。训练分析进一步显示,在强化学习过程中,AAWM初始化的策略在任务成功率持续上升的同时维持了更广泛的决策导向推理。我们的贡献总结如下: - •我们识别出目标选择是语言智能体世界建模中的核心问题:训练目标应捕捉影响动作选择的动态,而不仅仅是重建环境响应。 - •我们将此原则实例化为AAWM,一种策略自身的信念和不确定性决定训练目标内容的世界建模流程。 - •我们证明AAWM在两个环境、两种模型规模以及监督学习和强化学习设置下均优于下一观察世界建模。 参见图注 图2:AAWM目标构建流水线。在决策上下文\(o_t\)中,策略通过自探针产生确认模式\(P_t\)和开放性问题\(Q_t\)。每个命题从转换库\(\mathcal{T}\)中检索证据,而即时转换集\(\mathcal{I}_t\)提供来自同一上下文的局部证据。动态合成将这些输入组合成世界建模目标,在证据允许时纠正错误信念并回答开放性问题。 ## 2 相关工作 #### LLM作为决策智能体。 LLM智能体已被广泛研究用于软件工程中的序列决策 (Yang等人,2024 (https://arxiv.org/html/2606.25421#bib.bib36))、具身交互 (Wang等人,2023 (https://arxiv.org/html/2606.25421#bib.bib41))、网页导航 (Gur等人,2024 (https://arxiv.org/html/2606.25421#bib.bib39); Yang等人,2024 (https://arxiv.org/html/2606.25421#bib.bib36)) 以及GUI操作 (Zhang和Zhang,2024 (https://arxiv.org/html/2606.25421#bib.bib37); Hong等人,2024 (https://arxiv.org/html/2606.25421#bib.bib38))。诸如链式思考推理和ReAct (Yao等人,2022b (https://arxiv.org/html/2606.25421#bib.bib40)) 的提示方法结构化中间推理轨迹以分解复杂任务,而诸如Reflexion (Shinn等人,2023 (https://arxiv.org/html/2606.25421#bib.bib42)) 的自反思机制则利用先前失败的言语反馈来修正动作选择。记忆 (Park等人,2023 (https://arxiv.org/html/2606.25421#bib.bib45))、检索 (Nakano等人,2021 (https://arxiv.org/html/2606.25421#bib.bib46)) 和工具使用 (Gou等人,2024 (https://arxiv.org/html/2606.25421#bib.bib43); Schick等人,2023 (https://arxiv.org/html/2606.25421#bib.bib44)) 机制通过提供外部上下文或可执行操作进一步扩展智能体能力。然而,这些方法改进了策略在推理时选择动作的方式,但并未改变用于训练策略的监督信号。 #### LLM智能体的世界模型。 世界模型已被广泛用于为序列决策提供未来信息和辅助监督。在LLM智能体中,近期工作通过转换级别状态变化总结 (Chae等人,2025 (https://arxiv.org/html/2606.25421#bib.bib8))、语义压缩 (Berg等人,2025 (https://arxiv.org/html/2606.25421#bib.bib4))、结果状态预测 (Guo等人,2025 (https://arxiv.org/html/2606.25421#bib.bib3))、动作模拟 (Yu等人,2025 (https://arxiv.org/html/2606.25421#bib.bib10)) 和知识注入 (Qiao等人,2024 (https://arxiv.org/html/2606.25421#bib.bib15)) 实例化了这一思想。相关的工作线使智能体更直接地参与到世界模型构建中。Chen等人 (2025 (https://arxiv.org/html/2606.25421#bib.bib11)) 从智能体自身的轨迹中内化环境动态;Wang等人 (2026 (https://arxiv.org/html/2606.25421#bib.bib30)) 在多轮交互中强化对环境状态的显式预测;Hu等人 (2025 (https://arxiv.org/html/2606.25421#bib.bib13)) 通过世界模型仿真重建思维过程;Zhang等人 (2025 (https://arxiv.org/html/2606.25421#bib.bib1)) 从智能体自身的动作生成额外的交互数据并基于结果进行训练。尽管取得了进展,训练目标的内容仍然由每个转换恰好揭示的内容决定,这可能忽略了与智能体当前决策最相关的动态。因此,我们的工作旨在根据智能体当前的信念和开放性问题动态调整其训练目标。 ## 3 预备知识 问题设定。我们考虑一个部分可观测的文本环境\(\mathcal{E}\),其中语言模型策略\(\pi_\theta\)通过文本观察和动作进行交互。在步骤\(t\),策略接收决策上下文\(o_t\)并采样动作\(a_t \sim \pi_\theta(\cdot \mid o_t)\)。环境返回下一观察\(o_{t+1}\),生成轨迹\(\mathcal{D} = \{\tau_i\}\),其中\(\tau_i = (o_0, a_0, o_1, \ldots, o_T)\),我们记\(\mathcal{U}(\mathcal{D}) = \{(o_t, a_t, o_{t+1})\}\)为所有单步转换记录的集合。从这些记录中我们维护两个集合。*全局转换池*\(\mathcal{T}\)包含来自所有轨迹的记录,作为一个可检索的集合。*即时转换集*\(\mathcal{I}_t \subseteq \mathcal{T}\)包含源自同一上下文\(o_t\)的记录,包括记录的转换以及通过在该上下文中执行替代动作获得的额外转换。 #### 世界建模目标。 标准文本世界模型基于当前上下文和动作预测环境响应。对于每个转换记录,从下一观察构建文本结果目标\(\bar{o}_{t+1} = g(o_{t+1})\),其中\(g\)可以是恒等映射、状态变化提取器或摘要器。下一响应预测目标为最小化 \(\mathcal{L}_{\mathrm{obs}}(\theta) = -\sum_{(o_t, a_t, o_{t+1}) \in \mathcal{U}(\mathcal{D})} \log p_\theta(\bar{o}_{t+1} \mid o_t, a_t)\) (1) 当下一观察包含控制所需的动态时,该目标是有用的,但决定良好动作的动态可能是稀疏的、隐式的或分布在更早的转换中。在行动前,策略可能需要验证其对环境的当前理解是否正确,并解决该理解中的特定空白。这些需求反映的是策略自身世界模型的状态,而非下一观察的内容。AAWM通过从策略的决策导向建模需求出发构建世界模型目标来解决这一问题。 为了将世界建模目标与策略在行动前所需的内容对齐,AAWM从策略的当前决策上下文构建目标,流水线概览如图2 (https://arxiv.org/html/2606.25421#S1.F2) 所示。自探针引发策略当前的信念和开放性问题。转换检索从\(\mathcal{T}\)中选取支持记录。动态合成将探针、即时转换和检索到的转换组合成微调目标。以下小节详细描述这些阶段。 ### 4.1 自探针 不同于从下一观察定义目标内容,AAWM在上下文\(o_t\)下引发策略的建模需求。具体而言,提示策略产生两组命题: \((P_t, Q_t) \sim \pi_\theta(\cdot \mid o_t)\), (2) 其中\(P_t = \{p_t^1, \ldots, p_t^n\}\)是*确认模式*,\(Q_t = \{q_t^1, \ldots, q_t^n\}\)是*开放性问题*。确认模式指定策略当前理解中可能需要在检索到的转换中验证或纠正的部分。开放性问题标识策略尚未解决且答案可能影响下一步动作的动态。\((P_t, Q_t)\)共同确定训练目标应包含的内容,并驱动后续的检索和合成步骤。提示模板见附录D (https://arxiv.org/html/2606.25421#A4)。 ### 4.2 转换检索 由于所需动态可能不存在于即时转换集\(\mathcal{I}_t\)中,我们从全局转换池\(\mathcal{T}\)中检索相关转换。对于每个命题\(r \in P_t \cup Q_t\),AAWM使用最大边际相关性 (Carbonell和Goldstein,1998 (https://arxiv.org/html/2606.25421#bib.bib29)) 从\(\mathcal{T}\)中检索\(K\)个转换,该方法平衡了与\(r\)的相关性以及所选记录之间的多样性,确保证据涵盖所查询动态的不同方面,而非冗余记录。检索集为 \(\mathcal{R}_t = \bigcup_{r \in P_t \cup Q_t} \mathrm{Retrieve}(r, \mathcal{T}; K)\)。 (3) 实现细节见附录E (https://arxiv.org/html/2606.25421#A5)。 ### 4.3 动态合成 给定由探针指定的策略行动需求以及通过检索获得的转换证据,最后阶段合成智能体自构建的世界建模目标。具体而言,一个外部的指令遵循模型\(f_{\mathrm{syn}}\)接收上下文\(o_t\)、探针\((P_t, Q_t)\)、即时转换集\(\mathcal{I}_t\)和检索到的转换集\(\mathcal{R}_t\),并生成目标\(\hat{o}_{t+1}\): \(\hat{o}_{t+1} = f_{\mathrm{syn}}(o_t, P_t, Q_t, \mathcal{I}_t, \mathcal{R}_t)\)。 (4) 该目标描述与策略当前决策相关的动态,例如确认或纠正关于环境行为的信念、回答关于转换后果的开放性问题,或总结从类似情境中泛化出的模式。然后,策略在此目标上微调: \(\mathcal{L}_{\mathrm{AAWM}}(\theta) = -\sum_{t} \log p_\theta(\hat{o}_{t+1} \mid o_t, a_t)\)。 (5) 通过这种方式,训练目标直接针对策略在行动前需要理解的动态,而非仅仅预测下一观察的内容。相似文章
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua
用于LLM智能体离线策略评估的自回归扩散世界模型
提出了Adwm,一种用于LLM智能体离线策略评估的自回归扩散世界模型,能够从预先收集的轨迹中实现可靠的价值估计,无需在线交互。
语言代理的策略与世界模型协同训练
本文介绍PaW,一种协同训练框架,在在线策略强化学习(on-policy RL)轨迹中向策略学习添加辅助世界模型监督,无需额外计算开销即可改进语言代理的训练。
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。