A^2RD:用于长视频一致性的代理式自回归扩散
摘要
A^2RD 是一篇新论文,介绍了一种用于长视频合成的代理式自回归扩散架构,通过闭环自改进流程实现了更好的一致性和叙事连贯性。
查看缓存全文
缓存时间: 2026/05/11 02:42
论文页面 - A^2RD:用于长视频一致性的智能体自回归扩散模型
来源:https://huggingface.co/papers/2605.06924
摘要
A^2RD(Agentic Auto-Regressive Diffusion,智能体自回归扩散)架构通过包含记忆追踪、自适应生成和分层自我改进机制的闭环流程,解决了长视频合成的挑战。
合成一致且连贯的长视频仍然是一个根本性的挑战。现有方法在长时间跨度下容易遭受语义漂移(semantic drift)和叙事崩溃(narrative collapse)的问题。我们提出了 A^2RD,这是一种智能体自回归扩散(Agentic Auto-Regressive Diffusion)架构,它将创意合成与一致性约束解耦。A^2RD 将长视频合成(video synthesis)公式化为一个闭环过程(closed-loop process),通过“检索–合成–优化–更新”循环,逐片段地合成并自我改进视频。它包含三个核心组件:(i)多模态视频记忆(Multimodal Video Memory),用于跨模态追踪视频进展;(ii)自适应片段生成(Adaptive Segment Generation),用于在多种生成模式之间切换以实现自然的进展和视觉一致性;以及(iii)分层测试时自我改进(Hierarchical Test-Time Self-Improvement),在帧和视频层级对每个片段进行自我改进以防止误差传播。此外,我们引入了 LVBench-C,这是一个具有非实体和环境非线性转换的挑战性基准,用于压力测试长视界一致性(long-horizon consistency)。在一分钟到十分钟的视频公共基准和 LVBench-C 基准上,A^2RD 在一致性和叙事连贯性方面分别比最先进的基线高出 30% 和 20%。人类评估证实了这些提升,并突出了在运动流畅性和过渡平滑度方面的显著改进。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06924) 查看 PDF (https://arxiv.org/pdf/2605.06924) 项目页面 (https://dxlong2000.github.io/AARD/) GitHub1 (https://github.com/dxlong2000/AARD) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06924)
在您的智能体中获取此论文:
hf papers read 2605\.06924
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无链接到此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。
引用此论文的数据集 0
暂无链接到此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。
引用此论文的 Spaces 0
暂无链接到此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。
包含此论文的集合 0
暂无包含此论文的集合
将此论文添加到集合 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
Causal Forcing++:可扩展的少步自回归扩散蒸馏,用于实时交互式视频生成
Causal Forcing++提出了一种新颖的因果一致性蒸馏方法,用于逐帧自回归视频生成,在降低延迟和训练成本的同时实现了最先进的质量。
自回归视频生成的投机解码
SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。
RAVEN: 实时自回归视频外推与一致性模型GRPO
RAVEN 提出了一种实时自回归视频外推框架,结合了 CM-GRPO(一种用于一致性模型采样的新型强化学习方法),提升了长时程生成质量。
Stream-R1:流式视频生成的可靠性-困惑度感知奖励蒸馏
Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。