Aurora:使用工具代理的统一视频编辑

Hugging Face Daily Papers 论文

摘要

Aurora 是一个基于代理的视频编辑框架,它将一个工具增强的视觉语言模型代理与扩散变换器配对,自动解决用户请求中的文本和视觉未指定性,从而实现统一视频编辑任务,如替换、移除、风格迁移和参考驱动插入。

最近的视频编辑模型趋于采用统一的条件设计:单个扩散变换器同时处理文本、源视频和参考图像,一组权重覆盖替换、移除、风格迁移和参考驱动插入。这种设计很灵活,但它假设用户已经提供了模型可直接使用的文本、参考图像和局部编辑的空间定位,而实际请求中常常缺少这些。我们提出了 Aurora,这是一个基于代理的视频编辑框架,它将一个工具增强的视觉语言模型(VLM)代理与统一的视频扩散变换器配对。VLM 代理将原始用户请求映射为与变换器条件通道对齐的结构化编辑计划,从而在生成之前解决文本和视觉未指定性。我们使用监督数据训练 VLM 代理,以实现完整的编辑计划和参考图像选择,同时使用偏好对来增强工具使用的鲁棒性和指令优化。我们引入了 AgentEdit-Bench,用于在文本和视觉未指定性下评估代理增强的视频编辑。在 AgentEdit-Bench 和两个现有视频编辑基准上的实验表明,Aurora 优于仅使用指令的基线,并且 VLM 代理可以迁移到兼容的冻结视频编辑模型。项目页面:https://yeates.github.io/Aurora-Page
查看原文
查看缓存全文

缓存时间: 2026/05/20 06:37

论文页面 - Aurora:使用工具代理的统一视频编辑

来源:https://huggingface.co/papers/2605.18748

摘要

Aurora 是一个智能体视频编辑框架,它将视觉-语言模型代理与扩散变换器相结合,以处理视频编辑请求中的文本和视觉未明确指定问题。

近期视频编辑模型 (https://huggingface.co/papers?q=video%20editing%20models) 已趋向于统一的调节设计:单个扩散变换器 (https://huggingface.co/papers?q=diffusion%20transformer) 共同处理文本、源视频和参考图像,一组权重覆盖替换、移除、风格迁移和参考驱动的插入。该设计灵活,但它假设用户已经提供了模型就绪的文本、参考图像和用于局部编辑的空间定位信息,而实际请求中这些往往缺失。我们提出了 Aurora,这是一个智能体视频编辑框架,它将工具增强的视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model) (VLM) 代理与统一的视频扩散变换器 (https://huggingface.co/papers?q=diffusion%20transformer) 配对。VLM 代理将原始用户请求映射到与变换器的调节通道对齐的结构化编辑计划,从而在生成之前解决文本和视觉未明确指定问题。我们使用监督数据 (https://huggingface.co/papers?q=supervised%20data) 训练 VLM 代理以进行完整的编辑计划和参考图像选择,同时使用偏好对 (https://huggingface.co/papers?q=preference%20pairs) 进行稳健的工具使用和指令改进。我们引入了 AgentEdit-Bench (https://huggingface.co/papers?q=AgentEdit-Bench) 以评估在文本和视觉未明确指定下代理增强的视频编辑。在 AgentEdit-Bench (https://huggingface.co/papers?q=AgentEdit-Bench) 和两个现有视频编辑基准上的实验表明,Aurora 在仅基于指令的基线上有所改进,并且 VLM 代理可迁移至兼容的冻结视频编辑模型 (https://huggingface.co/papers?q=video%20editing%20models)。项目页面:https://yeates.github.io/Aurora-Page

查看 arXiv 页面 (https://arxiv.org/abs/2605.18748)查看 PDF (https://arxiv.org/pdf/2605.18748)项目页面 (https://www.yongshengyu.com/Aurora-Page/)GitHub3 (https://github.com/yeates/Aurora)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18748)

引用此论文的模型0

没有模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.18748 以将其链接至此页面。

引用此论文的数据集0

没有数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.18748 以将其链接至此页面。

引用此论文的 Spaces0

没有 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.18748 以将其链接至此页面。

包含此论文的合集0

没有合集包含此论文

请将此论文添加至合集 (https://huggingface.co/new-collection) 以链接至此页面。

相似文章

Ava Studio

Product Hunt

Ava Studio 是一款由人工智能驱动的工具,充当视频广告制作的创意团队。

Vivago Video Agent

Product Hunt

Vivago Video Agent 是一款工具,能让用户无需大量提示即可制作出引人入胜的视频。