HL-OutPaint: 面向高分辨率长时视频的由粗到细视频外扩方法

Hugging Face Daily Papers 论文

摘要

HL-OutPaint 是一个面向高分辨率长时视频的由粗到细视频外扩框架,利用全局粗粒度引导实现大空间外推,同时保持时空一致性。

视频外扩旨在生成超出视频原始空间范围的合理视觉内容,在将视频适配到不同显示格式中起关键作用。为支持此类应用,它需在长序列中实现大幅空间外推。然而,现有方法大多仅处理其中一项挑战,或缺乏确保全局时空一致性的明确机制,导致明显局限。本文提出 HL-OutPaint,一种面向长序列的高分辨率视频外扩框架。我们的方法采用两阶段流水线的由粗到细策略。首先构建全局粗粒度引导(GCG),这是一种低分辨率表示,可捕获视频的全局结构和主要运动。与简单的下采样不同,GCG 通过一种新颖的全局-局部帧交换机制构建,该机制将稀疏全局关键帧与局部时间窗口耦合,并在采样过程中交换信息。这使得 GCG 能够将长期结构一致性和短期时间动态编码到一个统一表示中。在此表示指导下,HL-OutPaint 随后执行高分辨率外扩,生成空间细节丰富且时间一致的内容。通过将全局结构建模与细粒度合成分离,我们的框架实现了大空间扩展和长视频序列的稳定、一致生成。大量实验表明,HL-OutPaint 在涉及大范围空间外推和长视频序列的挑战性场景中优于现有方法。
查看原文
查看缓存全文

缓存时间: 2026/06/01 15:20

论文页面 - HL-OutPaint:面向高分辨率长距离视频的由粗到精视频外扩

来源:https://huggingface.co/papers/2605.17543

摘要

HL-OutPaint 是一个高分辨率视频外扩框架,采用由粗到精的策略与全局粗粒度引导,能够在保持时空一致性的同时实现大空间外推和长序列生成。

视频外扩 (https://huggingface.co/papers?q=Video%20outpainting) 能够生成视频原始空间范围之外合理的视觉内容,在将视频适配到多种显示格式中扮演关键角色。为了支持这类应用场景,它必须能够对长序列实现大空间外推 (https://huggingface.co/papers?q=spatial%20extrapolation)。然而,现有大多数方法仅能解决其中一个挑战,或者缺乏确保全局时空一致性 (https://huggingface.co/papers?q=spatio-temporal%20consistency) 的明确机制,导致明显的局限性。在本文中,我们提出了 HL-OutPaint,一个面向长序列的高分辨率视频外扩 (https://huggingface.co/papers?q=video%20outpainting) 框架。我们的方法遵循由粗到精策略 (https://huggingface.co/papers?q=coarse-to-fine%20strategy),采用两阶段流水线。我们首先构建全局粗粒度引导 (https://huggingface.co/papers?q=Global%20Coarse%20Guidance) (GCG),这是一个低分辨率表示,捕捉视频的全局结构和主要运动。与简单的下采样不同,GCG 通过一种新颖的全局-局部帧交换机制 (https://huggingface.co/papers?q=global-local%20frame%20swapping%20mechanism) 构建,该机制将稀疏的全局关键帧与局部时间窗口耦合,并在采样过程中交换信息。这使得 GCG 能够将长期结构一致性与短期时间动态编码到统一的表示中。在此表示的引导下,HL-OutPaint 随后执行高分辨率外扩,生成空间细节丰富且时间一致的内容。通过将全局结构建模与细粒度合成分离,我们的框架实现了大空间扩展和长视频序列 (https://huggingface.co/papers?q=long%20video%20sequences) 的稳定、连贯生成。大量实验表明,HL-OutPaint 在涉及宽空间外推 (https://huggingface.co/papers?q=spatial%20extrapolation) 和长视频序列 (https://huggingface.co/papers?q=long%20video%20sequences) 的挑战性场景中优于现有方法。

查看 arXiv 页面 (https://arxiv.org/abs/2605.17543) 查看 PDF (https://arxiv.org/pdf/2605.17543) 项目页面 (https://koyy001.github.io/Publications/hl-outpaint) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.17543)

在你的代理中获取这篇论文:

hf papers read 2605\.17543

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.17543 以从该页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.17543 以从该页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.17543 以从该页面链接。

包含此论文的收藏0

没有包含此论文的收藏

添加此论文到收藏 (https://huggingface.co/new-collection) 以从该页面链接。

相似文章

DALL·E: 推出外扩绘画功能

OpenAI Blog

OpenAI 为 DALL·E 推出外扩绘画功能,使用户能够扩展生成或上传的图像,创建任意宽高比的大规模图像,同时保持阴影、反射和纹理的视觉一致性。

基于对数编码的潜空间对齐实现HDR视频生成

Hugging Face Daily Papers

本文提出一种HDR视频生成方法,通过对数编码对齐和模拟相机退化的训练策略,利用预训练生成模型实现高效的HDR合成,无需重新设计模型架构。该方法表明,只需将现有模型适配到与其先验知识自然对齐的表示上,即可实现HDR生成。

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

Hugging Face Daily Papers

LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。