A^2RD：用于长视频一致性的代理式自回归扩散

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

A^2RD 是一篇新论文，介绍了一种用于长视频合成的代理式自回归扩散架构，通过闭环自改进流程实现了更好的一致性和叙事连贯性。

合成一致且连贯的长视频仍然是一个基本挑战。现有方法在长时段范围内会受到语义漂移和叙事崩溃的影响。我们提出了 A^2RD，这是一种代理式自回归扩散架构，它将创意合成与一致性约束解耦。A^2RD 将长视频合成建模为一个闭环过程，通过检索-合成-优化-更新（Retrieve-Synthesize-Refine-Update）循环，逐段合成并自我改进视频。它包含三个核心组件：(i) 多模态视频记忆，用于跨模态跟踪视频进展；(ii) 自适应片段生成，可在不同生成模式之间切换，以实现自然进展和视觉一致性；(iii) 分层测试时自改进，在帧级和视频级对每个片段进行自我改进，以防止错误传播。我们进一步引入了 LVBench-C，这是一个具有挑战性的基准测试，包含非线性的实体和环境转换，用于对长时段一致性进行压力测试。在涵盖一到十分钟视频的公开基准和 LVBench-C 基准中，A^2RD 在一致性方面比最先进的基线方法高出多达 30%，在叙事连贯性方面高出 20%。人工评估证实了这些增益，同时也突出了在运动和过渡平滑性方面的显著改进。

查看原文

查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - A^2RD：用于长视频一致性的智能体自回归扩散模型

来源：https://huggingface.co/papers/2605.06924

摘要

A $^2$ RD（Agentic Auto-Regressive Diffusion，智能体自回归扩散）架构通过包含记忆追踪、自适应生成和分层自我改进机制的闭环流程，解决了长视频合成的挑战。

合成一致且连贯的长视频仍然是一个根本性的挑战。现有方法在长时间跨度下容易遭受语义漂移（semantic drift）和叙事崩溃（narrative collapse）的问题。我们提出了 A^2RD，这是一种智能体自回归扩散（Agentic Auto-Regressive Diffusion）架构，它将创意合成与一致性约束解耦。A^2RD 将长视频合成（video synthesis）公式化为一个闭环过程（closed-loop process），通过“检索–合成–优化–更新”循环，逐片段地合成并自我改进视频。它包含三个核心组件：（i）多模态视频记忆（Multimodal Video Memory），用于跨模态追踪视频进展；（ii）自适应片段生成（Adaptive Segment Generation），用于在多种生成模式之间切换以实现自然的进展和视觉一致性；以及（iii）分层测试时自我改进（Hierarchical Test-Time Self-Improvement），在帧和视频层级对每个片段进行自我改进以防止误差传播。此外，我们引入了 LVBench-C，这是一个具有非实体和环境非线性转换的挑战性基准，用于压力测试长视界一致性（long-horizon consistency）。在一分钟到十分钟的视频公共基准和 LVBench-C 基准上，A^2RD 在一致性和叙事连贯性方面分别比最先进的基线高出 30% 和 20%。人类评估证实了这些提升，并突出了在运动流畅性和过渡平滑度方面的显著改进。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06924) 查看 PDF (https://arxiv.org/pdf/2605.06924) 项目页面 (https://dxlong2000.github.io/AARD/) GitHub1 (https://github.com/dxlong2000/AARD) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06924)

在您的智能体中获取此论文：

hf papers read 2605\.06924

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无链接到此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。

引用此论文的数据集 0

暂无链接到此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。

引用此论文的 Spaces 0

暂无链接到此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。

包含此论文的集合 0

暂无包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以在此页面建立链接。

A^2RD：用于长视频一致性的代理式自回归扩散

论文页面 - A^2RD：用于长视频一致性的智能体自回归扩散模型

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 0

相似文章

长视频生成（阅读时间 4 分钟）

AAD-1：一步自回归视频生成的非对称对抗性蒸馏

Causal-rCM: 用于流式视频生成和交互世界模型的自回归扩散蒸馏的统一教师强制与自强制开放方案

Causal Forcing++：可扩展的少步自回归扩散蒸馏，用于实时交互式视频生成

AdaState：流式视频生成中的自进化锚点

提交意见反馈