长视频生成（阅读时间 4 分钟）

TLDR AI 2026/05/12 00:00 论文

video-generation consistency diffusion-models long-video research benchmark

摘要

本文介绍了 A²RD，这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新（Retrieve–Synthesize–Refine–Update）循环机制，并推出了一个新的基准测试 LVBench-C，以解决长时视频合成中的语义漂移问题。

A²RD 提出了一种智能体自回归扩散框架，通过迭代检索、合成、优化和记忆更新来生成长且连贯的视频。

查看原文

查看缓存全文

缓存时间: 2026/05/13 00:22

# A2RD：用于长视频一致性的智能体自回归扩散模型来源：https://dxlong2000.github.io/AARD/ 1Google Cloud AI Research 2 新加坡国立大学 ## 摘要合成连贯一致的长视频仍然是一个根本性的挑战。现有方法在长时间跨度下容易遭受语义漂移和叙事崩溃的问题。我们提出了 **A2RD** (/ɑːrd/)，一种 **A**gent（智能体）**A**uto-**R**egressive **D**iffusion（自回归扩散）架构，该架构将创意合成与一致性约束解耦。A2RD 将长视频合成 formulate 为一个闭环过程，通过“检索–合成–优化–更新”循环，逐段合成并自我改进视频片段。它包含三个核心组件：*(1) 多模态视频记忆*，用于跨模态追踪视频进展；*(2) 自适应片段生成*，通过切换生成模式来实现自然的进展和视觉一致性；以及 *(3) 分层测试时自我改进*，在帧和视频层级对每个片段进行自我改进，以防止误差传播。我们进一步引入了 **LVBench-C**，这是一个具有非线性实体和环境转换的挑战性基准，用于压力测试长跨度的一致性。在一分钟到十分钟的视频所涵盖的公共基准和 LVBench-C 基准中，A2RD 在一致性方面比最先进的基础方法高出高达 30%，在叙事连贯性方面高出 20%。 ## 术语术语 | 描述 --- | --- **镜头 (Shot)** | 从单一摄像机角度拍摄、没有剪辑的连续帧序列。 **场景 (Scene)** | 代表在单一物理环境或位置内连续动作的叙事单元。 **片段 (Clip/Segment)** | A2RD 中的基本生成单元，具有灵活性，可以跨越一个或多个镜头或场景。 **片段上下文 (Si)** | 规定第 i 个片段叙事、动作和场景设置的文本描述。 **故事线 (S)** | 定义完整视频叙事的片段上下文 $\{S1, ..., Sn\}$ 的完整序列集合。 **外推 (Extrapolation)** | 一种仅从起始帧向前合成视频片段的生成模式。 **内插 (Interpolation)** | 一种合成视频片段以无缝连接固定起始帧和结束帧的生成模式。 ## 方法概述 A2RD 使视频扩散模型能够自回归地合成并自我改进长视频，强制执行时间一致性和叙事连贯性。A2RD 无需训练，建立在三大支柱之上： - **多模态视频记忆**：现有方法仅存储视觉参考，导致在长时间跨度下丢失叙事上下文。A2RD 存储从合成片段中获取的结构化上下文，将每个片段解耦为三种模态：*文本状态*（实体身份、属性变化、运动、空间关系、摄像机轨迹）、*帧*（全局参考和边界关键帧）以及 *视频*（用于运动连续性的完整片段）。支持在线检索和更新操作以用于合成。 - **自适应片段生成**：先前的研究采用外推或内插作为固定的生成模式。外推允许自然进展，但有语义漂移的风险；内插强制执行更强的一致性，但在结束帧规划不佳时有导致视频进展不自然的风险。A2RD 针对每个片段自适应地选择模式，以实现自然的视频进展和强一致性约束。 - **分层测试时自我改进 (HITS)**：单个不一致的帧可能会在整个时间跨度级联产生伪影。现有的视频优化方法仅作用于短片段。A2RD 引入 HITS 以分层方式自我改进长视频——首先是边界帧，然后是完整片段——重点关注片段内和片段间的连贯性以及视频质量，以对抗未纠正的误差传播。工作流程分为两个阶段： - **记忆初始化**：智能体推理叙事以识别实体和环境，构建依赖图，并合成全局参考帧作为长期记忆的一种形式。 - **自回归片段合成与自我改进**：对于每个片段，智能体从记忆中检索上下文，选择生成模式，合成边界帧和视频，应用 HITS，并在推进之前更新记忆。 A2RD 概览 ## 基准：LVBench-C 我们引入了 **LVBench-C**（Long Video Bench-Challenge，长视频基准-挑战），这是一个旨在压力测试复杂场景下时间一致性的挑战性基准，在这些场景中，**实体和环境在长跨度下出现、消失并重新出现**，并可能发生状态变化。LVBench-C 的特点是多镜头故事，涵盖 3 分钟、5 分钟和 10 分钟的规模，具有丰富的非线性实体和环境转换。 LVBench-C 概览 ## SOTA 基于片段的长视频合成基线 **单场景 (VBench-Long)：** 一位时尚的女性走在东京街头，周围充满了温暖发光的霓虹灯和动态的城市招牌。她穿着黑色皮夹克、红色长裙和黑色靴子，提着一个黑色手提包。她戴着太阳镜，涂着红唇。她自信而随意地走着。街道潮湿且具有反射性，形成了多彩灯光的镜像效果。许多行人来来往往。 **多场景 (LVBench-C, 3 分钟, 《潜水员的礁石探险》)：** 提示如下。 ## A2RD 单场景/多场景长视频画廊 ## A2RD 多场景超长视频画廊 (a) 3 分钟：《陶艺大师的创作》场景 1：在安静的早晨客厅里，一个留着灰色马尾辫的男人穿上干净的深蓝色围裙。场景 2：他走进厨房，用各种雕刻工具装一个小木箱。场景 3：他走出家门，沿着鹅卵石小巷走向他的艺术工作室。场景 4：在明亮的工作室里，他靠近一袋湿灰色的粘土，用线切下一大块。场景 5：他抱着沉重的粘土走到拉坯机前，将其砸在转盘的中心。场景 6：男人坐在轮子前开始使粘土居中，他的双手迅速被厚厚的湿泥浆覆盖。场景 7：随着轮子旋转，他将粘土向上拉伸，形成一个高大优雅的花瓶形状。场景 8：他拿起一块湿海绵抹平花瓶的外部，灰色的水滴落到他的围裙上。场景 9：他使用金属肋部工具削去侧面，在底座周围形成一堆粘土碎屑。场景 10：男人停止轮子，用细线小心地将花瓶从旋转头上切下。场景 11：他将湿花瓶搬进充满木制架子的干燥室，轻轻放下。场景 12：他走到工作台，拿起前一天皮革硬度的碗开始雕刻。场景 13：他使用精细的针形工具在碗中刻出复杂的图案，粘土灰尘落在他的手臂上。场景 14：男人将雕刻好的碗搬进窑房，小心地将其放入大型工业窑中。场景 15：他调整窑的数字设置并按下启动按钮开始烧制过程。场景 16：他走到上釉站，用木棍搅拌一桶深蓝色釉料。场景 17：他将一个已烧制完成的盘子浸入蓝色液体中，手指被色素染色。场景 18：他将上釉的盘子放在架子上晾干，看着表面的转化。场景 19：男人走到一个大型实用水槽前，开始擦洗手上和前臂上的厚粘土。场景 20：他脱下深蓝色围裙，上面现在沾满了灰色粘土和蓝色釉料斑点。场景 21：他将围裙挂在墙钩上，拿起他的工具木箱。场景 22：他穿过鹅卵石小巷走回，傍晚的街灯闪烁亮起。场景 23：回到家，他将工具箱放在桌子上，满意地叹了口气。场景 24：他站在客厅里悠闲地伸展，脸上露出深深的满足感。 (a) 3 分钟：《潜水员的礁石探险》场景 1：一名潜水员站在海洋中的一艘船的甲板上。场景 2：潜水员穿着黑色氯丁橡胶潜水服。场景 3：潜水员背上沉重的空气瓶和背带。场景 4：潜水员在腰间系上配重带。场景 5：潜水员坐在船甲板的边缘。场景 6：潜水员将橡胶面罩拉过眼睛。场景 7：潜水员将调节器口咬嘴放入口中。场景 8：潜水员向后落入蓝色的水中。场景 9：潜水员沉入海洋表面之下。场景 10：随着呼吸，气泡从潜水员的调节器中升起。场景 11：潜水员游向五彩斑斓的珊瑚礁。场景 12：潜水员看到一群明亮的热带鱼。场景 13：潜水员悬停在一只有大海龟附近。场景 14：潜水员检查气瓶上的气压计。场景 15：潜水员开始慢慢游回水面。场景 16：潜水员破水而出。场景 17：潜水员游向船侧的梯子。场景 18：潜水员爬上梯子到达甲板。场景 19：潜水员从脸上取下橡胶面罩。场景 20：潜水员将调节器从口中取出。场景 21：潜水员卸下沉重的空气瓶和背带。场景 22：潜水员进入船舱并换上干衣服。场景 23：潜水员将湿潜水服挂在晾衣架上。场景 24：船开始驶回港口。 (b) 5 分钟：《舞台恐惧症 (Clara)》场景 1：Clara 穿着一件超大羊毛毛衣和眼镜，坐在布满灰尘的阁楼里的一架钢琴前。场景 2：她的头发凌乱，用简单的橡皮筋扎在后面，她哼着一首旋律。场景 3：她停下来用铅笔在一张皱巴巴的五线谱上乱写音符。场景 4：Clara 擦去钢琴键上的一层灰尘，手指微微颤抖。场景 5：宏伟剧院的大厅里挤满了穿着燕尾服和晚礼服的社会名流。场景 6：穿着镶金制服的引座员向到来的客人分发光泽的节目单。场景 7：大厅里的一张大海报展示了一位钢琴家的剪影，上面用粗体写着“CLARA”。场景 8：舞台工作人员将一架巨大的黑色三角钢琴移到舞台中央。场景 9：乐团指挥调整他的指挥棒，看着他的怀表。场景 10：观众开始排队进入红色天鹅绒座位的行列，带着期待低声私语。场景 11-40：[完整的 40 场景叙事继续……] (c) 10 分钟：《大博物馆抢劫案》场景 1：Victor 和 Saffron 坐在昏暗的地下室里，穿着休闲卫衣和牛仔裤。场景 2：他们研究皇家博物馆的全息蓝图，在桌子上发出蓝光。场景 3：Saffron 指向北画廊的激光网格，眼睛眯起且专注。场景 4：Victor 检查一个微型玻璃切割装置的内部机制。场景 5：他们碰杯两杯冷咖啡，最终达成沉默的协议。场景 6：皇家博物馆在月光下显得雄伟，由高大的石狮守护。场景 7：一名保安巡逻，手电筒的光束穿透黑暗。场景 8：博物馆的大钟敲响午夜，声音在空旷的街道上回荡。场景 9-80：[完整的 80 场景叙事继续……] ## 引用 (BibTeX)

@yukangchen_: 我们发布了一篇博客：“Why Video Gen Is an Infra Problem”。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-i…

X AI KOLs Following

NVIDIA研究博客认为，长视频生成正在成为一个基础设施问题，需要在模型、内存、KV缓存、VAE解码、调度和部署基础设施上进行全栈协同设计，并以LongLive 2.0作为案例研究。

长视频生成（阅读时间 4 分钟）

相似文章

A^2RD：用于长视频一致性的代理式自回归扩散

LongLive-RAG：一种通用的检索增强长视频生成框架

AAD-1：一步自回归视频生成的非对称对抗性蒸馏

重新思考长视频中的RAG：检索什么以及如何使用？

@yukangchen_: 我们发布了一篇博客：“Why Video Gen Is an Infra Problem”。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-i…

提交意见反馈