A^2RD：用于长视频一致性的代理式自回归扩散

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

A^2RD 是一篇新论文，介绍了一种用于长视频合成的代理式自回归扩散架构，通过闭环自改进流程实现了更好的一致性和叙事连贯性。

合成一致且连贯的长视频仍然是一个基本挑战。现有方法在长时段范围内会受到语义漂移和叙事崩溃的影响。我们提出了 A^2RD，这是一种代理式自回归扩散架构，它将创意合成与一致性约束解耦。A^2RD 将长视频合成建模为一个闭环过程，通过检索-合成-优化-更新（Retrieve-Synthesize-Refine-Update）循环，逐段合成并自我改进视频。它包含三个核心组件：(i) 多模态视频记忆，用于跨模态跟踪视频进展；(ii) 自适应片段生成，可在不同生成模式之间切换，以实现自然进展和视觉一致性；(iii) 分层测试时自改进，在帧级和视频级对每个片段进行自我改进，以防止错误传播。我们进一步引入了 LVBench-C，这是一个具有挑战性的基准测试，包含非线性的实体和环境转换，用于对长时段一致性进行压力测试。在涵盖一到十分钟视频的公开基准和 LVBench-C 基准中，A^2RD 在一致性方面比最先进的基线方法高出多达 30%，在叙事连贯性方面高出 20%。人工评估证实了这些增益，同时也突出了在运动和过渡平滑性方面的显著改进。

查看原文

查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - A^2RD：用于长视频一致性的智能体自回归扩散模型

来源：https://huggingface.co/papers/2605.06924

摘要

A $^2$ RD（Agentic Auto-Regressive Diffusion，智能体自回归扩散）架构通过包含记忆追踪、自适应生成和分层自我改进机制的闭环流程，解决了长视频合成的挑战。

合成一致且连贯的长视频仍然是一个根本性的挑战。现有方法在长时间跨度下容易遭受语义漂移（semantic drift）和叙事崩溃（narrative collapse）的问题。我们提出了 A^2RD，这是一种智能体自回归扩散（Agentic Auto-Regressive Diffusion）架构，它将创意合成与一致性约束解耦。A^2RD 将长视频合成（video synthesis）公式化为一个闭环过程（closed-loop process），通过“检索–合成–优化–更新”循环，逐片段地合成并自我改进视频。它包含三个核心组件：（i）多模态视频记忆（Multimodal Video Memory），用于跨模态追踪视频进展；（ii）自适应片段生成（Adaptive Segment Generation），用于在多种生成模式之间切换以实现自然的进展和视觉一致性；以及（iii）分层测试时自我改进（Hierarchical Test-Time Self-Improvement），在帧和视频层级对每个片段进行自我改进以防止误差传播。此外，我们引入了 LVBench-C，这是一个具有非实体和环境非线性转换的挑战性基准，用于压力测试长视界一致性（long-horizon consistency）。在一分钟到十分钟的视频公共基准和 LVBench-C 基准上，A^2RD 在一致性和叙事连贯性方面分别比最先进的基线高出 30% 和 20%。人类评估证实了这些提升，并突出了在运动流畅性和过渡平滑度方面的显著改进。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06924) 查看 PDF (https://arxiv.org/pdf/2605.06924) 项目页面 (https://dxlong2000.github.io/AARD/) GitHub1 (https://github.com/dxlong2000/AARD) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06924)

在您的智能体中获取此论文：

hf papers read 2605\.06924

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无链接到此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。

引用此论文的数据集 0

暂无链接到此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。

引用此论文的 Spaces 0

暂无链接到此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.06924 以在此页面建立链接。

包含此论文的集合 0

暂无包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以在此页面建立链接。

A^2RD：用于长视频一致性的代理式自回归扩散

论文页面 - A^2RD：用于长视频一致性的智能体自回归扩散模型

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 0

相似文章

长视频生成（阅读时间 4 分钟）

Causal Forcing++：可扩展的少步自回归扩散蒸馏，用于实时交互式视频生成

自回归视频生成的投机解码

RAVEN: 实时自回归视频外推与一致性模型GRPO

Stream-R1：流式视频生成的可靠性-困惑度感知奖励蒸馏

提交意见反馈