Echo-Infinity: 学习演化记忆用于实时无限视频生成
摘要
Echo-Infinity 提出了一种可学习的演化记忆机制,用于自回归视频生成,以恒定的内存成本实现了实时无限视频生成,并达到了最先进的性能。
查看缓存全文
缓存时间: 2026/06/04 03:41
论文页面 - Echo-Infinity: 学习演化记忆实现实时无限视频生成
来源:https://huggingface.co/papers/2606.04527 发布于 6月3日
#3 今日论文 (https://huggingface.co/papers/date/2026-06-04) 作者:
,
,
,
,
,
,
,
,
,
,
摘要
Echo Infinity 利用可学习的演化记忆和统一的相对RoPE,克服了现有自回归方法的局限性,实现了实时无限视频生成。
我们提出 Echo Infinity,一个面向实时无限视频生成的自回归框架,采用可学习的演化记忆 (https://huggingface.co/papers?q=evolving%20memory) 以恒定成本动态过滤、抽象和压缩任意长度的历史信息。现有方法主要依赖预定义的KV缓存调度、固定比例启发式压缩或推理时的RoPE适配来管理记忆。这些设计由于缓存窗口有限且忽略自回归生成噪声,不可避免地丢失历史信息并放大累积误差。受人类记忆巩固机制的启发,Echo-Infinity 用可学习的记忆查询 (https://huggingface.co/papers?q=Memory%20Query) 取代了手工设计的记忆管理,这些查询通过注意力机制和门控机制 (https://huggingface.co/papers?q=gating%20mechanism) 在过往帧被驱逐出局部窗口时进行更新。这些查询与视频扩散Transformer (https://huggingface.co/papers?q=video%20diffusion%20transformers) (DiTs (https://huggingface.co/papers?q=DiTs)) 进行端到端联合优化,形成一种支持任意压缩比且计算量与视频长度无关的演化记忆 (https://huggingface.co/papers?q=evolving%20memory)。它们还可作为可泛化的生成先验,即使仅使用优化后的初始状态也能提升生成质量。我们进一步引入统一相对RoPE (https://huggingface.co/papers?q=Relative%20RoPE) 方案,将起始帧锚定在id 0,并使最新帧的id在训练和推理过程中最多增长到DiTs (https://huggingface.co/papers?q=DiTs) 预训练的最大时间RoPE id,从而使模型摆脱有限RoPE约束 (https://huggingface.co/papers?q=RoPE%20constraint),并弥合训练-测试RoPE外推差距 (https://huggingface.co/papers?q=train-test%20RoPE%20extrapolation%20gap)。在长视频和短视频生成中,Echo-Infinity 达到了最先进的性能,并且据我们所知,首次展示了具有前景的24小时(>130万帧)实时 rollout 能力,为无限视频生成提供了实用路径。
查看 arXiv 页面 (https://arxiv.org/abs/2606.04527) | 查看 PDF (https://arxiv.org/pdf/2606.04527) | 项目页面 (https://echo-team-joy-future-academy-jd.github.io/Echo-Infinity/) | GitHub (https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Infinity) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04527)
引用该论文的模型 1
Echo-Team/Echo-Infinity 约3小时前更新 (https://huggingface.co/Echo-Team/Echo-Infinity)
引用该论文的数据集 0
暂无数据集关联该论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.04527 以建立链接。
引用该论文的Spaces 0
暂无Space关联该论文
请在Space的 README.md 中引用 arxiv.org/abs/2606.04527 以建立链接。
包含该论文的收藏 0
暂无收藏包含该论文
请将该论文添加到收藏 (https://huggingface.co/new-collection) 以建立链接。
相似文章
Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架
Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
LongLive-RAG:一种通用的检索增强长视频生成框架
LongLive-RAG将长视频生成形式化为检索增强生成问题,利用先前生成潜变量的动态记忆来减少误差积累和身份漂移,在多种自回归骨干网络上提升了生成质量。
通过参数化记忆扩展自进化智能体
来自阿里巴巴/Qwen和北京大学的研究人员提出了TMEM——一种自进化参数化记忆框架。该框架利用在线LoRA权重更新,使LLM智能体能够在单个回合内真正从经验中学习,而非仅依赖提示空间中的记忆。TMEM在多个基准测试(包括LoCoMo、LongMemEval-S和CL-Bench)上均优于基于摘要和基于检索的基线方法。
DecMem:面向分钟级一致世界生成的解耦记忆方法
DecMem 提出了一种解耦记忆架构,结合稀疏全局记忆和锚定局部记忆,实现了分钟级一致视频生成,性能优于现有最优方法。