长视频生成(阅读时间 4 分钟)

TLDR AI 论文

摘要

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。

A²RD 提出了一种智能体自回归扩散框架,通过迭代检索、合成、优化和记忆更新来生成长且连贯的视频。
查看原文
查看缓存全文

缓存时间: 2026/05/13 00:22

# A2RD:用于长视频一致性的智能体自回归扩散模型 来源:https://dxlong2000.github.io/AARD/ 1Google Cloud AI Research 2 新加坡国立大学 ## 摘要 合成连贯一致的长视频仍然是一个根本性的挑战。现有方法在长时间跨度下容易遭受语义漂移和叙事崩溃的问题。我们提出了 **A2RD** (/ɑːrd/),一种 **A**gent(智能体)**A**uto-**R**egressive **D**iffusion(自回归扩散)架构,该架构将创意合成与一致性约束解耦。A2RD 将长视频合成 formulate 为一个闭环过程,通过“检索–合成–优化–更新”循环,逐段合成并自我改进视频片段。它包含三个核心组件:*(1) 多模态视频记忆*,用于跨模态追踪视频进展;*(2) 自适应片段生成*,通过切换生成模式来实现自然的进展和视觉一致性;以及 *(3) 分层测试时自我改进*,在帧和视频层级对每个片段进行自我改进,以防止误差传播。我们进一步引入了 **LVBench-C**,这是一个具有非线性实体和环境转换的挑战性基准,用于压力测试长跨度的一致性。在一分钟到十分钟的视频所涵盖的公共基准和 LVBench-C 基准中,A2RD 在一致性方面比最先进的基础方法高出高达 30%,在叙事连贯性方面高出 20%。 ## 术语 术语 | 描述 --- | --- **镜头 (Shot)** | 从单一摄像机角度拍摄、没有剪辑的连续帧序列。 **场景 (Scene)** | 代表在单一物理环境或位置内连续动作的叙事单元。 **片段 (Clip/Segment)** | A2RD 中的基本生成单元,具有灵活性,可以跨越一个或多个镜头或场景。 **片段上下文 (Si)** | 规定第 i 个片段叙事、动作和场景设置的文本描述。 **故事线 (S)** | 定义完整视频叙事的片段上下文 $\{S1, ..., Sn\}$ 的完整序列集合。 **外推 (Extrapolation)** | 一种仅从起始帧向前合成视频片段的生成模式。 **内插 (Interpolation)** | 一种合成视频片段以无缝连接固定起始帧和结束帧的生成模式。 ## 方法概述 A2RD 使视频扩散模型能够自回归地合成并自我改进长视频,强制执行时间一致性和叙事连贯性。A2RD 无需训练,建立在三大支柱之上: - **多模态视频记忆**:现有方法仅存储视觉参考,导致在长时间跨度下丢失叙事上下文。A2RD 存储从合成片段中获取的结构化上下文,将每个片段解耦为三种模态:*文本状态*(实体身份、属性变化、运动、空间关系、摄像机轨迹)、*帧*(全局参考和边界关键帧)以及 *视频*(用于运动连续性的完整片段)。支持在线检索和更新操作以用于合成。 - **自适应片段生成**:先前的研究采用外推或内插作为固定的生成模式。外推允许自然进展,但有语义漂移的风险;内插强制执行更强的一致性,但在结束帧规划不佳时有导致视频进展不自然的风险。A2RD 针对每个片段自适应地选择模式,以实现自然的视频进展和强一致性约束。 - **分层测试时自我改进 (HITS)**:单个不一致的帧可能会在整个时间跨度级联产生伪影。现有的视频优化方法仅作用于短片段。A2RD 引入 HITS 以分层方式自我改进长视频——首先是边界帧,然后是完整片段——重点关注片段内和片段间的连贯性以及视频质量,以对抗未纠正的误差传播。 工作流程分为两个阶段: - **记忆初始化**:智能体推理叙事以识别实体和环境,构建依赖图,并合成全局参考帧作为长期记忆的一种形式。 - **自回归片段合成与自我改进**:对于每个片段,智能体从记忆中检索上下文,选择生成模式,合成边界帧和视频,应用 HITS,并在推进之前更新记忆。 A2RD 概览 ## 基准:LVBench-C 我们引入了 **LVBench-C**(Long Video Bench-Challenge,长视频基准-挑战),这是一个旨在压力测试复杂场景下时间一致性的挑战性基准,在这些场景中,**实体和环境在长跨度下出现、消失并重新出现**,并可能发生状态变化。LVBench-C 的特点是多镜头故事,涵盖 3 分钟、5 分钟和 10 分钟的规模,具有丰富的非线性实体和环境转换。 LVBench-C 概览 ## SOTA 基于片段的长视频合成基线 **单场景 (VBench-Long):** 一位时尚的女性走在东京街头,周围充满了温暖发光的霓虹灯和动态的城市招牌。她穿着黑色皮夹克、红色长裙和黑色靴子,提着一个黑色手提包。她戴着太阳镜,涂着红唇。她自信而随意地走着。街道潮湿且具有反射性,形成了多彩灯光的镜像效果。许多行人来来往往。 **多场景 (LVBench-C, 3 分钟, 《潜水员的礁石探险》):** 提示如下。 ## A2RD 单场景/多场景长视频画廊 ## A2RD 多场景超长视频画廊 (a) 3 分钟:《陶艺大师的创作》 场景 1:在安静的早晨客厅里,一个留着灰色马尾辫的男人穿上干净的深蓝色围裙。 场景 2:他走进厨房,用各种雕刻工具装一个小木箱。 场景 3:他走出家门,沿着鹅卵石小巷走向他的艺术工作室。 场景 4:在明亮的工作室里,他靠近一袋湿灰色的粘土,用线切下一大块。 场景 5:他抱着沉重的粘土走到拉坯机前,将其砸在转盘的中心。 场景 6:男人坐在轮子前开始使粘土居中,他的双手迅速被厚厚的湿泥浆覆盖。 场景 7:随着轮子旋转,他将粘土向上拉伸,形成一个高大优雅的花瓶形状。 场景 8:他拿起一块湿海绵抹平花瓶的外部,灰色的水滴落到他的围裙上。 场景 9:他使用金属肋部工具削去侧面,在底座周围形成一堆粘土碎屑。 场景 10:男人停止轮子,用细线小心地将花瓶从旋转头上切下。 场景 11:他将湿花瓶搬进充满木制架子的干燥室,轻轻放下。 场景 12:他走到工作台,拿起前一天皮革硬度的碗开始雕刻。 场景 13:他使用精细的针形工具在碗中刻出复杂的图案,粘土灰尘落在他的手臂上。 场景 14:男人将雕刻好的碗搬进窑房,小心地将其放入大型工业窑中。 场景 15:他调整窑的数字设置并按下启动按钮开始烧制过程。 场景 16:他走到上釉站,用木棍搅拌一桶深蓝色釉料。 场景 17:他将一个已烧制完成的盘子浸入蓝色液体中,手指被色素染色。 场景 18:他将上釉的盘子放在架子上晾干,看着表面的转化。 场景 19:男人走到一个大型实用水槽前,开始擦洗手上和前臂上的厚粘土。 场景 20:他脱下深蓝色围裙,上面现在沾满了灰色粘土和蓝色釉料斑点。 场景 21:他将围裙挂在墙钩上,拿起他的工具木箱。 场景 22:他穿过鹅卵石小巷走回,傍晚的街灯闪烁亮起。 场景 23:回到家,他将工具箱放在桌子上,满意地叹了口气。 场景 24:他站在客厅里悠闲地伸展,脸上露出深深的满足感。 (a) 3 分钟:《潜水员的礁石探险》 场景 1:一名潜水员站在海洋中的一艘船的甲板上。 场景 2:潜水员穿着黑色氯丁橡胶潜水服。 场景 3:潜水员背上沉重的空气瓶和背带。 场景 4:潜水员在腰间系上配重带。 场景 5:潜水员坐在船甲板的边缘。 场景 6:潜水员将橡胶面罩拉过眼睛。 场景 7:潜水员将调节器口咬嘴放入口中。 场景 8:潜水员向后落入蓝色的水中。 场景 9:潜水员沉入海洋表面之下。 场景 10:随着呼吸,气泡从潜水员的调节器中升起。 场景 11:潜水员游向五彩斑斓的珊瑚礁。 场景 12:潜水员看到一群明亮的热带鱼。 场景 13:潜水员悬停在一只有大海龟附近。 场景 14:潜水员检查气瓶上的气压计。 场景 15:潜水员开始慢慢游回水面。 场景 16:潜水员破水而出。 场景 17:潜水员游向船侧的梯子。 场景 18:潜水员爬上梯子到达甲板。 场景 19:潜水员从脸上取下橡胶面罩。 场景 20:潜水员将调节器从口中取出。 场景 21:潜水员卸下沉重的空气瓶和背带。 场景 22:潜水员进入船舱并换上干衣服。 场景 23:潜水员将湿潜水服挂在晾衣架上。 场景 24:船开始驶回港口。 (b) 5 分钟:《舞台恐惧症 (Clara)》 场景 1:Clara 穿着一件超大羊毛毛衣和眼镜,坐在布满灰尘的阁楼里的一架钢琴前。 场景 2:她的头发凌乱,用简单的橡皮筋扎在后面,她哼着一首旋律。 场景 3:她停下来用铅笔在一张皱巴巴的五线谱上乱写音符。 场景 4:Clara 擦去钢琴键上的一层灰尘,手指微微颤抖。 场景 5:宏伟剧院的大厅里挤满了穿着燕尾服和晚礼服的社会名流。 场景 6:穿着镶金制服的引座员向到来的客人分发光泽的节目单。 场景 7:大厅里的一张大海报展示了一位钢琴家的剪影,上面用粗体写着“CLARA”。 场景 8:舞台工作人员将一架巨大的黑色三角钢琴移到舞台中央。 场景 9:乐团指挥调整他的指挥棒,看着他的怀表。 场景 10:观众开始排队进入红色天鹅绒座位的行列,带着期待低声私语。 场景 11-40:[完整的 40 场景叙事继续……] (c) 10 分钟:《大博物馆抢劫案》 场景 1:Victor 和 Saffron 坐在昏暗的地下室里,穿着休闲卫衣和牛仔裤。 场景 2:他们研究皇家博物馆的全息蓝图,在桌子上发出蓝光。 场景 3:Saffron 指向北画廊的激光网格,眼睛眯起且专注。 场景 4:Victor 检查一个微型玻璃切割装置的内部机制。 场景 5:他们碰杯两杯冷咖啡,最终达成沉默的协议。 场景 6:皇家博物馆在月光下显得雄伟,由高大的石狮守护。 场景 7:一名保安巡逻,手电筒的光束穿透黑暗。 场景 8:博物馆的大钟敲响午夜,声音在空旷的街道上回荡。 场景 9-80:[完整的 80 场景叙事继续……] ## 引用 (BibTeX)

相似文章

自回归视频生成的投机解码

Hugging Face Daily Papers

SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。

视频生成模型作为世界模拟器

OpenAI Blog

OpenAI的技术报告介绍了Sora视频生成模型,该模型通过视觉补丁统一多样化的视觉数据,支持大规模训练生成模型,能够生成长达一分钟的高清视频,支持可变的时长、宽高比和分辨率。