Echo-Memory:动作世界模型中记忆的受控研究
摘要
Echo-Memory 对动作条件世界模型中的记忆机制进行了受控研究,揭示了记忆结构和容量对开放域返回性能的影响显著超越回放保真度。该研究引入了一个匹配评估协议,并发现原始上下文和状态空间递归是强大的机制。
查看缓存全文
缓存时间: 2026/06/09 08:43
论文页面 - Echo-Memory:动作世界模型中记忆机制的受控研究
来源:https://huggingface.co/papers/2606.09803 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
针对动作条件世界模型中记忆机制的受控研究表明,记忆结构与容量对开放域回归性能的影响远超单纯的回放保真度指标。
我们提出了Echo-Memory,一项关于动作条件世界模型(https://huggingface.co/papers?q=action-conditioned%20world%20models)中记忆机制(https://huggingface.co/papers?q=memory%20mechanisms)的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多片段视频,但其核心失效点往往是记忆而非局部图像合成:当相机离开并返回时,场景或显著对象可能悄然改变。现有记忆设计难以比较,因为增益与骨干网络、训练、检索和评估差异相互纠缠。Echo-Memory固定了动作到视频的接口,仅改变历史信息如何被生成器存储与读取。在共享的视频扩散骨干(https://huggingface.co/papers?q=video%20diffusion%20backbone)、优化器、相机动作表示、采样器和评估流程下,我们比较了原始上下文、基于压缩的记忆(https://huggingface.co/papers?q=compression-based%20memory)、具有不同读出路径的空间摘要(https://huggingface.co/papers?q=spatial%20summaries)以及状态空间递归(https://huggingface.co/papers?q=state-space%20recurrence)。这一匹配矩阵分离了四个通常混淆的维度:容量、压缩、读出和递归。我们还通过三分支协议评估记忆:回放质量(https://huggingface.co/papers?q=replay%20quality)、域内循环重访(https://huggingface.co/papers?q=loop%20revisit)和开放域回归探测(https://huggingface.co/papers?q=return%20probes)。各分支经常产生不一致的结果,表明回放保真度并非记忆世界的充分代理。由此得出三个发现:原始上下文是一个强大的容量基线,其提升开放域回归的效果远超提升回放指标。紧凑性并非容量的免费替代品:激进的空间与混合压缩记忆会丢失回归所需的关键证据。最后,分块状态空间递归(https://huggingface.co/papers?q=state-space%20recurrence)是我们矩阵中最强的开放域回归机制,表明隐式记忆的结构与是否使用它同样重要。这些结果为在动作世界模型中研究记忆提供了超越孤立回放指标的紧凑协议。
查看 arXiv 页面(https://arxiv.org/abs/2606.09803)查看 PDF(https://arxiv.org/pdf/2606.09803)项目页面(https://echo-team-joy-future-academy-jd.github.io/Echo-Memory/)GitHub78(https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09803)
在您的代理中获取此论文:
hf papers read 2606\.09803
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型关联此论文
请在模型的 README.md 中引用 arxiv.org/abs/2606.09803 以从此页面链接。
引用此论文的数据集0
无数据集关联此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.09803 以从此页面链接。
引用此论文的 Spaces0
无 Space 关联此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.09803 以从此页面链接。
包含此论文的合集1
相似文章
WorldMemArena:通过动作-世界交互评估多模态智能体记忆
WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。
用于扩散世界模型的记忆专家组合
一种新的基于扩散的世界模型框架,利用专门记忆专家(短期、长期情境和空间)的组合,实现更好的时间一致性和长上下文建模,且无二次成本。
Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架
Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。
回音放大知识:通过情感向量重新注入在语言模型中构建躯体标记模拟物
本预印本介绍了一种将情感向量注入语言模型以模拟躯体标记的方法,旨在弥合语义记忆与情景记忆之间的差距。作者证明,将情感回音与语义知识相结合可以提升决策能力,从而复现了人类认知科学中的相关发现。
EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体
EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。