ActWorld:从可探索到可交互的世界模型——基于动作感知记忆
摘要
ActWorld提出了一种分块自回归世界模型,具有层次化动作感知记忆,支持物体交互与导航,解决了现有交互世界模型中的数据和记忆瓶颈问题。
查看缓存全文
缓存时间: 2026/06/17 03:35
论文页面 - ActWorld:从可探索到可交互的世界模型——基于动作感知记忆
来源:https://huggingface.co/papers/2606.17730
作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
ActWorld 通过一种带有层级化动作感知记忆和持久记忆库的块自回归框架,将以导航为中心的交互式世界模型扩展至支持物体交互。
交互式世界模型(https://huggingface.co/papers?q=Interactive%20world%20models)旨在模拟实时用户动作下的环境动态。然而,其动作词汇很大程度上局限于导航:大多数动作对应运动(例如行走、转向、环顾四周),而与场景中物体的交互(例如拿起盘子、开门或触发物理响应)要么缺失,要么局限于游戏领域,要么被降级为“提示词生成完整视频”的场景。由此产生的世界虽然在视觉上可以探索,但并非真正可操作。在这项工作中,我们提出了 ActWorld,一种交互式世界模型,它在块自回归框架(https://huggingface.co/papers?q=chunk-autoregressive%20framework)内将以导航为中心的现有生成器(https://huggingface.co/papers?q=navigation-centric%20generators)扩展为支持滚动过程中的物体交互(https://huggingface.co/papers?q=object%20interaction)。我们认为导航与交互之间的差距源于两个瓶颈。首先是数据瓶颈:缺乏带有精确、密集标注的人-物交互(https://huggingface.co/papers?q=object%20interaction)数据。其次是记忆瓶颈:现有世界模型中对近期内容偏重的历史压缩会丢弃那些对后续物体状态起因果决定作用的事件过渡帧(https://huggingface.co/papers?q=event-transition%20frames),从而导致动作遗忘病理(https://huggingface.co/papers?q=action-forgetting%20pathology)。在数据方面,我们构建了一个包含 10 万段交互视频的数据集,每段视频都通过链式思维推理(https://huggingface.co/papers?q=chain-of-thought%20reasoning)标注了逐块描述(https://huggingface.co/papers?q=per-chunk%20captions)。在模型方面,我们引入了一种层级化动作感知记忆(https://huggingface.co/papers?q=action-aware%20memory)设计,根据交互重要性来路由历史压缩,并辅以一个持久记忆库(https://huggingface.co/papers?q=persistent%20memory%20bank),用于在整个长滚动过程中维护事件更新和物体身份标记。实验表明,ActWorld 能够在同一个模型内同时支持灵活的导航和丰富的物体交互(https://huggingface.co/papers?q=object%20interaction),相比仅支持导航的基线方法,在交互保真度上有显著提升,且不牺牲视角控制能力。项目页面位于:https://interactwm.github.io/ActWorld/。
查看 arXiv 页面(https://arxiv.org/abs/2606.17730)查看 PDF(https://arxiv.org/pdf/2606.17730)项目页面(https://interactwm.github.io/ActWorld/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17730)
在您的智能体中获取此论文:
hf papers read 2606.17730
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
尚无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.17730,以使其出现在此页面。
引用该论文的数据集 0
尚无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.17730,以使其出现在此页面。
引用该论文的空间 0
尚无空间链接此论文
请在空间 README.md 中引用 arxiv.org/abs/2606.17730,以使其出现在此页面。
包含该论文的收藏集 0
尚无收藏集包含此论文
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,以使其出现在此页面。
相似文章
WorldAct: 将单体3D世界激活为可交互的以对象为中心的场景
WorldAct是一个框架,利用多模态智能体和几何重建技术,将静态的3D生成环境转换为可编辑、可交互的以对象为中心的场景,支持对象级编辑和具身任务执行。
AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
Multi-Agent Transactive Memory
提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。