Echo-Infinity: 学习演化记忆用于实时无限视频生成

Hugging Face Daily Papers 2026/06/03 00:00 论文

video-generation autoregressive memory real-time diffusion-transformer rope infinite-video

摘要

Echo-Infinity 提出了一种可学习的演化记忆机制，用于自回归视频生成，以恒定的内存成本实现了实时无限视频生成，并达到了最先进的性能。

我们提出了 Echo Infinity，一个面向实时无限视频生成的自回归 (AR) 框架，它采用可学习的演化记忆，以恒定成本动态过滤、抽象和压缩任意长度的历史信息。现有方法主要通过预定义的 KV-cache 调度、固定比率的启发式压缩或推理时的 RoPE 自适应来管理记忆。这些设计由于有限的缓存窗口和对自回归生成噪声的忽略，不可避免地丢失历史信息并放大累积误差。受人类记忆巩固的启发，Echo-Infinity 用可学习的 Memory Query 取代了手工设计的记忆管理，这些 Query 在过去的帧从本地窗口被逐出时，通过注意力和门控机制进行更新。这些 Query 与视频扩散变换器 (DiTs) 进行端到端优化，形成一种支持任意压缩比、计算量与视频长度无关的恒定计算的演化记忆。它们还充当可泛化的生成先验，即使仅使用优化后的初始状态也能提高生成质量。我们进一步引入了 Unified Relative RoPE Recipe，它将锚点帧从 id 0 开始，并让最新帧的 id 在训练和推理过程中最多增长到 DiTs 预训练的最大时间 RoPE id，从而使模型摆脱有限 RoPE 约束，并弥合训练与测试之间的 RoPE 外推差距。在长视频和短视频生成中，Echo-Infinity 实现了最先进的性能，并且据我们所知，首次展示了有前景的 24 小时（>130 万帧）实时推演，为无限视频生成提供了一条实用路径。

查看原文

查看缓存全文

缓存时间: 2026/06/04 03:41

论文页面 - Echo-Infinity: 学习演化记忆实现实时无限视频生成

来源：https://huggingface.co/papers/2606.04527 发布于 6月3日

#3 今日论文 (https://huggingface.co/papers/date/2026-06-04) 作者：

摘要

Echo Infinity 利用可学习的演化记忆和统一的相对RoPE，克服了现有自回归方法的局限性，实现了实时无限视频生成。

我们提出 Echo Infinity，一个面向实时无限视频生成的自回归框架，采用可学习的演化记忆 (https://huggingface.co/papers?q=evolving%20memory) 以恒定成本动态过滤、抽象和压缩任意长度的历史信息。现有方法主要依赖预定义的KV缓存调度、固定比例启发式压缩或推理时的RoPE适配来管理记忆。这些设计由于缓存窗口有限且忽略自回归生成噪声，不可避免地丢失历史信息并放大累积误差。受人类记忆巩固机制的启发，Echo-Infinity 用可学习的记忆查询 (https://huggingface.co/papers?q=Memory%20Query) 取代了手工设计的记忆管理，这些查询通过注意力机制和门控机制 (https://huggingface.co/papers?q=gating%20mechanism) 在过往帧被驱逐出局部窗口时进行更新。这些查询与视频扩散Transformer (https://huggingface.co/papers?q=video%20diffusion%20transformers) (DiTs (https://huggingface.co/papers?q=DiTs)) 进行端到端联合优化，形成一种支持任意压缩比且计算量与视频长度无关的演化记忆 (https://huggingface.co/papers?q=evolving%20memory)。它们还可作为可泛化的生成先验，即使仅使用优化后的初始状态也能提升生成质量。我们进一步引入统一相对RoPE (https://huggingface.co/papers?q=Relative%20RoPE) 方案，将起始帧锚定在id 0，并使最新帧的id在训练和推理过程中最多增长到DiTs (https://huggingface.co/papers?q=DiTs) 预训练的最大时间RoPE id，从而使模型摆脱有限RoPE约束 (https://huggingface.co/papers?q=RoPE%20constraint)，并弥合训练-测试RoPE外推差距 (https://huggingface.co/papers?q=train-test%20RoPE%20extrapolation%20gap)。在长视频和短视频生成中，Echo-Infinity 达到了最先进的性能，并且据我们所知，首次展示了具有前景的24小时（>130万帧）实时 rollout 能力，为无限视频生成提供了实用路径。

查看 arXiv 页面 (https://arxiv.org/abs/2606.04527) | 查看 PDF (https://arxiv.org/pdf/2606.04527) | 项目页面 (https://echo-team-joy-future-academy-jd.github.io/Echo-Infinity/) | GitHub (https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Infinity) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04527)

引用该论文的模型 1

Echo-Team/Echo-Infinity 约3小时前更新 (https://huggingface.co/Echo-Team/Echo-Infinity)

引用该论文的数据集 0

暂无数据集关联该论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.04527 以建立链接。

引用该论文的Spaces 0

暂无Space关联该论文

请在Space的 README.md 中引用 arxiv.org/abs/2606.04527 以建立链接。

包含该论文的收藏 0

暂无收藏包含该论文

请将该论文添加到收藏 (https://huggingface.co/new-collection) 以建立链接。

Echo-Infinity: 学习演化记忆用于实时无限视频生成

论文页面 - Echo-Infinity: 学习演化记忆实现实时无限视频生成

摘要

引用该论文的模型 1

Echo-Team/Echo-Infinity 约3小时前更新 (https://huggingface.co/Echo-Team/Echo-Infinity)

引用该论文的数据集 0

引用该论文的Spaces 0

包含该论文的收藏 0

相似文章

Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架

长视频生成（阅读时间 4 分钟）

LongLive-RAG：一种通用的检索增强长视频生成框架

通过参数化记忆扩展自进化智能体

DecMem：面向分钟级一致世界生成的解耦记忆方法

提交意见反馈