A^2RD:用于长视频一致性的代理式自回归扩散

Hugging Face Daily Papers 论文

摘要

A^2RD 是一篇新论文,介绍了一种用于长视频合成的代理式自回归扩散架构,通过闭环自改进流程实现了更好的一致性和叙事连贯性。

合成一致且连贯的长视频仍然是一个基本挑战。现有方法在长时段范围内会受到语义漂移和叙事崩溃的影响。我们提出了 A^2RD,这是一种代理式自回归扩散架构,它将创意合成与一致性约束解耦。A^2RD 将长视频合成建模为一个闭环过程,通过检索-合成-优化-更新(Retrieve-Synthesize-Refine-Update)循环,逐段合成并自我改进视频。它包含三个核心组件:(i) 多模态视频记忆,用于跨模态跟踪视频进展;(ii) 自适应片段生成,可在不同生成模式之间切换,以实现自然进展和视觉一致性;(iii) 分层测试时自改进,在帧级和视频级对每个片段进行自我改进,以防止错误传播。我们进一步引入了 LVBench-C,这是一个具有挑战性的基准测试,包含非线性的实体和环境转换,用于对长时段一致性进行压力测试。在涵盖一到十分钟视频的公开基准和 LVBench-C 基准中,A^2RD 在一致性方面比最先进的基线方法高出多达 30%,在叙事连贯性方面高出 20%。人工评估证实了这些增益,同时也突出了在运动和过渡平滑性方面的显著改进。
查看原文
查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - A^2RD:用于长视频一致性的智能体自回归扩散模型

来源:https://huggingface.co/papers/2605.06924

摘要

A^2RD(Agentic Auto-Regressive Diffusion,智能体自回归扩散)架构通过包含记忆追踪、自适应生成和分层自我改进机制的闭环流程,解决了长视频合成的挑战。

合成一致且连贯的长视频仍然是一个根本性的挑战。现有方法在长时间跨度下容易遭受语义漂移(semantic drift)和叙事崩溃(narrative collapse)的问题。我们提出了 A^2RD,这是一种智能体自回归扩散(Agentic Auto-Regressive Diffusion)架构,它将创意合成与一致性约束解耦。A^2RD 将长视频合成(video synthesis)公式化为一个闭环过程(closed-loop process),通过“检索–合成–优化–更新”循环,逐片段地合成并自我改进视频。它包含三个核心组件:(i)多模态视频记忆(Multimodal Video Memory),用于跨模态追踪视频进展;(ii)自适应片段生成(Adaptive Segment Generation),用于在多种生成模式之间切换以实现自然的进展和视觉一致性;以及(iii)分层测试时自我改进(Hierarchical Test-Time Self-Improvement),在帧和视频层级对每个片段进行自我改进以防止误差传播。此外,我们引入了 LVBench-C,这是一个具有非实体和环境非线性转换的挑战性基准,用于压力测试长视界一致性(long-horizon consistency)。在一分钟到十分钟的视频公共基准和 LVBench-C 基准上,A^2RD 在一致性和叙事连贯性方面分别比最先进的基线高出 30% 和 20%。人类评估证实了这些提升,并突出了在运动流畅性和过渡平滑度方面的显著改进。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06924) 查看 PDF (https://arxiv.org/pdf/2605.06924) 项目页面 (https://dxlong2000.github.io/AARD/) GitHub1 (https://github.com/dxlong2000/AARD) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06924)

在您的智能体中获取此论文:

hf papers read 2605\.06924

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无链接到此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。

引用此论文的数据集 0

暂无链接到此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。

引用此论文的 Spaces 0

暂无链接到此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。

包含此论文的集合 0

暂无包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以在此页面建立链接。

相似文章

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。

自回归视频生成的投机解码

Hugging Face Daily Papers

SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。