ActWorld：从可探索到可交互的世界模型——基于动作感知记忆

Hugging Face Daily Papers 2026/06/16 00:00 论文

摘要

ActWorld提出了一种分块自回归世界模型，具有层次化动作感知记忆，支持物体交互与导航，解决了现有交互世界模型中的数据和记忆瓶颈问题。

交互式世界模型旨在模拟实时用户操作下的环境动态。然而，其动作词汇很大程度上局限于导航：大多数动作对应移动（例如行走、转身、环顾四周），而与场景中物体的交互（例如拿起盘子、开门或触发物理响应）要么缺失，要么仅限于游戏领域，要么降级为提示到完整视频的场景。由此产生的世界在视觉上可探索，但并非真正可操作。在这项工作中，我们提出了ActWorld，一个交互式世界模型，它扩展了之前以导航为中心的生成器，以在分块自回归框架内支持中期展开中的物体交互。我们认为，导航与交互之间的差距源于两个瓶颈。第一，数据瓶颈：缺乏具有准确、密集标注的人-物交互数据。第二，记忆瓶颈：现有世界模型中基于近因的历史压缩丢弃了因果决定后续物体状态的事件转换帧，导致了一种动作遗忘病理。在数据方面，我们构建了一个10万条交互视频数据集，每条视频通过思维链推理标注了每个分块的描述。在模型方面，我们引入了一种层次化动作感知记忆设计，根据交互重要性路由历史压缩，并辅以一个持久记忆库，该记忆库在长程展开中维护事件更新和物体身份标记。实验表明，ActWorld在单一模型中同时支持灵活的导航和丰富的物体交互，在不牺牲视角控制的情况下，显著提高了交互保真度，超越了仅导航的基线。项目页面见 https://interactwm.github.io/ActWorld。

查看原文

查看缓存全文

缓存时间: 2026/06/17 03:35

论文页面 - ActWorld：从可探索到可交互的世界模型——基于动作感知记忆

来源：https://huggingface.co/papers/2606.17730

作者：

，

摘要

ActWorld 通过一种带有层级化动作感知记忆和持久记忆库的块自回归框架，将以导航为中心的交互式世界模型扩展至支持物体交互。

交互式世界模型（https://huggingface.co/papers?q=Interactive%20world%20models）旨在模拟实时用户动作下的环境动态。然而，其动作词汇很大程度上局限于导航：大多数动作对应运动（例如行走、转向、环顾四周），而与场景中物体的交互（例如拿起盘子、开门或触发物理响应）要么缺失，要么局限于游戏领域，要么被降级为“提示词生成完整视频”的场景。由此产生的世界虽然在视觉上可以探索，但并非真正可操作。在这项工作中，我们提出了 ActWorld，一种交互式世界模型，它在块自回归框架（https://huggingface.co/papers?q=chunk-autoregressive%20framework）内将以导航为中心的现有生成器（https://huggingface.co/papers?q=navigation-centric%20generators）扩展为支持滚动过程中的物体交互（https://huggingface.co/papers?q=object%20interaction）。我们认为导航与交互之间的差距源于两个瓶颈。首先是数据瓶颈：缺乏带有精确、密集标注的人-物交互（https://huggingface.co/papers?q=object%20interaction）数据。其次是记忆瓶颈：现有世界模型中对近期内容偏重的历史压缩会丢弃那些对后续物体状态起因果决定作用的事件过渡帧（https://huggingface.co/papers?q=event-transition%20frames），从而导致动作遗忘病理（https://huggingface.co/papers?q=action-forgetting%20pathology）。在数据方面，我们构建了一个包含 10 万段交互视频的数据集，每段视频都通过链式思维推理（https://huggingface.co/papers?q=chain-of-thought%20reasoning）标注了逐块描述（https://huggingface.co/papers?q=per-chunk%20captions）。在模型方面，我们引入了一种层级化动作感知记忆（https://huggingface.co/papers?q=action-aware%20memory）设计，根据交互重要性来路由历史压缩，并辅以一个持久记忆库（https://huggingface.co/papers?q=persistent%20memory%20bank），用于在整个长滚动过程中维护事件更新和物体身份标记。实验表明，ActWorld 能够在同一个模型内同时支持灵活的导航和丰富的物体交互（https://huggingface.co/papers?q=object%20interaction），相比仅支持导航的基线方法，在交互保真度上有显著提升，且不牺牲视角控制能力。项目页面位于：https://interactwm.github.io/ActWorld/。

查看 arXiv 页面（https://arxiv.org/abs/2606.17730）查看 PDF（https://arxiv.org/pdf/2606.17730）项目页面（https://interactwm.github.io/ActWorld/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.17730）

在您的智能体中获取此论文：

hf papers read 2606.17730

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

尚无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.17730，以使其出现在此页面。

引用该论文的数据集 0

尚无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.17730，以使其出现在此页面。

引用该论文的空间 0

尚无空间链接此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.17730，以使其出现在此页面。

包含该论文的收藏集 0

尚无收藏集包含此论文

请将此论文添加到一个收藏集（https://huggingface.co/new-collection）中，以使其出现在此页面。

ActWorld：从可探索到可交互的世界模型——基于动作感知记忆

论文页面 - ActWorld：从可探索到可交互的世界模型——基于动作感知记忆

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的空间 0

包含该论文的收藏集 0

相似文章

WorldAct: 将单体3D世界激活为可交互的以对象为中心的场景

AHA-WAM：异步视野自适应世界动作建模与观测引导上下文路由

世界行动模型：具身智能的下一个前沿

世界-动作交互模型的DAWN

Multi-Agent Transactive Memory

提交意见反馈