Echo-Memory:动作世界模型中记忆的受控研究

Hugging Face Daily Papers 论文

摘要

Echo-Memory 对动作条件世界模型中的记忆机制进行了受控研究,揭示了记忆结构和容量对开放域返回性能的影响显著超越回放保真度。该研究引入了一个匹配评估协议,并发现原始上下文和状态空间递归是强大的机制。

我们提出 Echo-Memory,一项对动作条件世界模型中记忆机制的受控研究。这些模型从第一帧、文本提示和相机动作序列生成多段视频,但其核心失败往往在于记忆而非局部图像合成:当相机离开并返回后,场景或显著物体可能会悄然改变。现有的记忆设计难以比较,因为其增益与骨干网络、训练、检索和评估差异纠缠在一起。Echo-Memory 固定了动作到视频的接口,仅改变生成器如何存储和读取历史信息。 在共享的视频扩散骨干网络、优化器、相机动作表示、采样器和评估管道下,我们比较了原始上下文、基于压缩的记忆、具有不同读取路径的空间摘要以及状态空间递归。这个匹配矩阵分离了四个原本混淆的轴:容量、压缩、读取和递归。我们还通过一个三分支协议评估记忆:回放质量、域内循环重访和开放域返回探测。这些分支通常不一致,表明回放保真度不足以作为记住世界的代理。 以下三个发现。原始上下文是一个强大的容量基线,它在提升开放域返回方面远优于提升回放指标。紧凑性不能免费替代容量:激进的空间和混合压缩记忆会丢失返回所需的显著证据。最后,分块状态空间递归是我们矩阵中最强的开放域返回机制,表明隐式记忆的结构与是否使用它的决策同等重要。这些结果为在动作世界模型中超越孤立回放指标研究记忆提供了一个紧凑协议。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:43

论文页面 - Echo-Memory:动作世界模型中记忆机制的受控研究

来源:https://huggingface.co/papers/2606.09803 作者:

摘要

针对动作条件世界模型中记忆机制的受控研究表明,记忆结构与容量对开放域回归性能的影响远超单纯的回放保真度指标。

我们提出了Echo-Memory,一项关于动作条件世界模型(https://huggingface.co/papers?q=action-conditioned%20world%20models)中记忆机制(https://huggingface.co/papers?q=memory%20mechanisms)的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多片段视频,但其核心失效点往往是记忆而非局部图像合成:当相机离开并返回时,场景或显著对象可能悄然改变。现有记忆设计难以比较,因为增益与骨干网络、训练、检索和评估差异相互纠缠。Echo-Memory固定了动作到视频的接口,仅改变历史信息如何被生成器存储与读取。在共享的视频扩散骨干(https://huggingface.co/papers?q=video%20diffusion%20backbone)、优化器、相机动作表示、采样器和评估流程下,我们比较了原始上下文、基于压缩的记忆(https://huggingface.co/papers?q=compression-based%20memory)、具有不同读出路径的空间摘要(https://huggingface.co/papers?q=spatial%20summaries)以及状态空间递归(https://huggingface.co/papers?q=state-space%20recurrence)。这一匹配矩阵分离了四个通常混淆的维度:容量、压缩、读出和递归。我们还通过三分支协议评估记忆:回放质量(https://huggingface.co/papers?q=replay%20quality)、域内循环重访(https://huggingface.co/papers?q=loop%20revisit)和开放域回归探测(https://huggingface.co/papers?q=return%20probes)。各分支经常产生不一致的结果,表明回放保真度并非记忆世界的充分代理。由此得出三个发现:原始上下文是一个强大的容量基线,其提升开放域回归的效果远超提升回放指标。紧凑性并非容量的免费替代品:激进的空间与混合压缩记忆会丢失回归所需的关键证据。最后,分块状态空间递归(https://huggingface.co/papers?q=state-space%20recurrence)是我们矩阵中最强的开放域回归机制,表明隐式记忆的结构与是否使用它同样重要。这些结果为在动作世界模型中研究记忆提供了超越孤立回放指标的紧凑协议。

查看 arXiv 页面(https://arxiv.org/abs/2606.09803)查看 PDF(https://arxiv.org/pdf/2606.09803)项目页面(https://echo-team-joy-future-academy-jd.github.io/Echo-Memory/)GitHub78(https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09803)

在您的代理中获取此论文:

hf papers read 2606\.09803

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型关联此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.09803 以从此页面链接。

引用此论文的数据集0

无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.09803 以从此页面链接。

引用此论文的 Spaces0

无 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.09803 以从此页面链接。

包含此论文的合集1

相似文章

WorldMemArena:通过动作-世界交互评估多模态智能体记忆

Hugging Face Daily Papers

WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。

用于扩散世界模型的记忆专家组合

arXiv cs.LG

一种新的基于扩散的世界模型框架,利用专门记忆专家(短期、长期情境和空间)的组合,实现更好的时间一致性和长上下文建模,且无二次成本。

Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架

Hugging Face Daily Papers

Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。

EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体

Hugging Face Daily Papers

EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。