ActWorld:从可探索到可交互的世界模型——基于动作感知记忆

Hugging Face Daily Papers 论文

摘要

ActWorld提出了一种分块自回归世界模型,具有层次化动作感知记忆,支持物体交互与导航,解决了现有交互世界模型中的数据和记忆瓶颈问题。

交互式世界模型旨在模拟实时用户操作下的环境动态。然而,其动作词汇很大程度上局限于导航:大多数动作对应移动(例如行走、转身、环顾四周),而与场景中物体的交互(例如拿起盘子、开门或触发物理响应)要么缺失,要么仅限于游戏领域,要么降级为提示到完整视频的场景。由此产生的世界在视觉上可探索,但并非真正可操作。在这项工作中,我们提出了ActWorld,一个交互式世界模型,它扩展了之前以导航为中心的生成器,以在分块自回归框架内支持中期展开中的物体交互。我们认为,导航与交互之间的差距源于两个瓶颈。第一,数据瓶颈:缺乏具有准确、密集标注的人-物交互数据。第二,记忆瓶颈:现有世界模型中基于近因的历史压缩丢弃了因果决定后续物体状态的事件转换帧,导致了一种动作遗忘病理。在数据方面,我们构建了一个10万条交互视频数据集,每条视频通过思维链推理标注了每个分块的描述。在模型方面,我们引入了一种层次化动作感知记忆设计,根据交互重要性路由历史压缩,并辅以一个持久记忆库,该记忆库在长程展开中维护事件更新和物体身份标记。实验表明,ActWorld在单一模型中同时支持灵活的导航和丰富的物体交互,在不牺牲视角控制的情况下,显著提高了交互保真度,超越了仅导航的基线。项目页面见 https://interactwm.github.io/ActWorld。
查看原文
查看缓存全文

缓存时间: 2026/06/17 03:35

论文页面 - ActWorld:从可探索到可交互的世界模型——基于动作感知记忆

来源:https://huggingface.co/papers/2606.17730

作者:

摘要

ActWorld 通过一种带有层级化动作感知记忆和持久记忆库的块自回归框架,将以导航为中心的交互式世界模型扩展至支持物体交互。

交互式世界模型(https://huggingface.co/papers?q=Interactive%20world%20models)旨在模拟实时用户动作下的环境动态。然而,其动作词汇很大程度上局限于导航:大多数动作对应运动(例如行走、转向、环顾四周),而与场景中物体的交互(例如拿起盘子、开门或触发物理响应)要么缺失,要么局限于游戏领域,要么被降级为“提示词生成完整视频”的场景。由此产生的世界虽然在视觉上可以探索,但并非真正可操作。在这项工作中,我们提出了 ActWorld,一种交互式世界模型,它在块自回归框架(https://huggingface.co/papers?q=chunk-autoregressive%20framework)内将以导航为中心的现有生成器(https://huggingface.co/papers?q=navigation-centric%20generators)扩展为支持滚动过程中的物体交互(https://huggingface.co/papers?q=object%20interaction)。我们认为导航与交互之间的差距源于两个瓶颈。首先是数据瓶颈:缺乏带有精确、密集标注的人-物交互(https://huggingface.co/papers?q=object%20interaction)数据。其次是记忆瓶颈:现有世界模型中对近期内容偏重的历史压缩会丢弃那些对后续物体状态起因果决定作用的事件过渡帧(https://huggingface.co/papers?q=event-transition%20frames),从而导致动作遗忘病理(https://huggingface.co/papers?q=action-forgetting%20pathology)。在数据方面,我们构建了一个包含 10 万段交互视频的数据集,每段视频都通过链式思维推理(https://huggingface.co/papers?q=chain-of-thought%20reasoning)标注了逐块描述(https://huggingface.co/papers?q=per-chunk%20captions)。在模型方面,我们引入了一种层级化动作感知记忆(https://huggingface.co/papers?q=action-aware%20memory)设计,根据交互重要性来路由历史压缩,并辅以一个持久记忆库(https://huggingface.co/papers?q=persistent%20memory%20bank),用于在整个长滚动过程中维护事件更新和物体身份标记。实验表明,ActWorld 能够在同一个模型内同时支持灵活的导航和丰富的物体交互(https://huggingface.co/papers?q=object%20interaction),相比仅支持导航的基线方法,在交互保真度上有显著提升,且不牺牲视角控制能力。项目页面位于:https://interactwm.github.io/ActWorld/。

查看 arXiv 页面(https://arxiv.org/abs/2606.17730)查看 PDF(https://arxiv.org/pdf/2606.17730)项目页面(https://interactwm.github.io/ActWorld/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17730)

在您的智能体中获取此论文:

hf papers read 2606.17730

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

尚无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.17730,以使其出现在此页面。

引用该论文的数据集 0

尚无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.17730,以使其出现在此页面。

引用该论文的空间 0

尚无空间链接此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.17730,以使其出现在此页面。

包含该论文的收藏集 0

尚无收藏集包含此论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,以使其出现在此页面。

相似文章

AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers

AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

世界-动作交互模型的DAWN

Hugging Face Daily Papers

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。

Multi-Agent Transactive Memory

arXiv cs.AI

提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。