A^2RD:用于长视频一致性的代理式自回归扩散
摘要
A^2RD 是一篇新论文,介绍了一种用于长视频合成的代理式自回归扩散架构,通过闭环自改进流程实现了更好的一致性和叙事连贯性。
查看缓存全文
缓存时间: 2026/05/11 02:42
论文页面 - A^2RD:用于长视频一致性的智能体自回归扩散模型
来源:https://huggingface.co/papers/2605.06924
摘要
A^2RD(Agentic Auto-Regressive Diffusion,智能体自回归扩散)架构通过包含记忆追踪、自适应生成和分层自我改进机制的闭环流程,解决了长视频合成的挑战。
合成一致且连贯的长视频仍然是一个根本性的挑战。现有方法在长时间跨度下容易遭受语义漂移(semantic drift)和叙事崩溃(narrative collapse)的问题。我们提出了 A^2RD,这是一种智能体自回归扩散(Agentic Auto-Regressive Diffusion)架构,它将创意合成与一致性约束解耦。A^2RD 将长视频合成(video synthesis)公式化为一个闭环过程(closed-loop process),通过“检索–合成–优化–更新”循环,逐片段地合成并自我改进视频。它包含三个核心组件:(i)多模态视频记忆(Multimodal Video Memory),用于跨模态追踪视频进展;(ii)自适应片段生成(Adaptive Segment Generation),用于在多种生成模式之间切换以实现自然的进展和视觉一致性;以及(iii)分层测试时自我改进(Hierarchical Test-Time Self-Improvement),在帧和视频层级对每个片段进行自我改进以防止误差传播。此外,我们引入了 LVBench-C,这是一个具有非实体和环境非线性转换的挑战性基准,用于压力测试长视界一致性(long-horizon consistency)。在一分钟到十分钟的视频公共基准和 LVBench-C 基准上,A^2RD 在一致性和叙事连贯性方面分别比最先进的基线高出 30% 和 20%。人类评估证实了这些提升,并突出了在运动流畅性和过渡平滑度方面的显著改进。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06924) 查看 PDF (https://arxiv.org/pdf/2605.06924) 项目页面 (https://dxlong2000.github.io/AARD/) GitHub1 (https://github.com/dxlong2000/AARD) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06924)
在您的智能体中获取此论文:
hf papers read 2605\.06924
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无链接到此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。
引用此论文的数据集 0
暂无链接到此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。
引用此论文的 Spaces 0
暂无链接到此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。
包含此论文的集合 0
暂无包含此论文的集合
将此论文添加到集合 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
AAD-1:一步自回归视频生成的非对称对抗性蒸馏
AAD-1 引入具有分阶段训练的非对称对抗性蒸馏,以实现一步自回归视频生成,在 VBench 上优于先前方法。
Causal-rCM: 用于流式视频生成和交互世界模型的自回归扩散蒸馏的统一教师强制与自强制开放方案
本文介绍了Causal-rCM,这是一个统一的教师强制与自强制框架,用于流式视频生成和交互世界模型中的自回归扩散蒸馏,以快速收敛实现了最先进的性能。
Causal Forcing++:可扩展的少步自回归扩散蒸馏,用于实时交互式视频生成
Causal Forcing++提出了一种新颖的因果一致性蒸馏方法,用于逐帧自回归视频生成,在降低延迟和训练成本的同时实现了最先进的质量。
AdaState:流式视频生成中的自进化锚点
本文介绍了AdaState,一种在自回归视频扩散模型中用自适应状态替代静态首帧锚点的方法,该状态随生成内容而演变,从而在流式视频生成中实现更丰富的运动与自然场景推进。