HL-OutPaint: 面向高分辨率长时视频的由粗到细视频外扩方法

Hugging Face Daily Papers 2026/05/19 00:00 论文

摘要

HL-OutPaint 是一个面向高分辨率长时视频的由粗到细视频外扩框架，利用全局粗粒度引导实现大空间外推，同时保持时空一致性。

视频外扩旨在生成超出视频原始空间范围的合理视觉内容，在将视频适配到不同显示格式中起关键作用。为支持此类应用，它需在长序列中实现大幅空间外推。然而，现有方法大多仅处理其中一项挑战，或缺乏确保全局时空一致性的明确机制，导致明显局限。本文提出 HL-OutPaint，一种面向长序列的高分辨率视频外扩框架。我们的方法采用两阶段流水线的由粗到细策略。首先构建全局粗粒度引导（GCG），这是一种低分辨率表示，可捕获视频的全局结构和主要运动。与简单的下采样不同，GCG 通过一种新颖的全局-局部帧交换机制构建，该机制将稀疏全局关键帧与局部时间窗口耦合，并在采样过程中交换信息。这使得 GCG 能够将长期结构一致性和短期时间动态编码到一个统一表示中。在此表示指导下，HL-OutPaint 随后执行高分辨率外扩，生成空间细节丰富且时间一致的内容。通过将全局结构建模与细粒度合成分离，我们的框架实现了大空间扩展和长视频序列的稳定、一致生成。大量实验表明，HL-OutPaint 在涉及大范围空间外推和长视频序列的挑战性场景中优于现有方法。

查看原文

查看缓存全文

缓存时间: 2026/06/01 15:20

论文页面 - HL-OutPaint：面向高分辨率长距离视频的由粗到精视频外扩

来源：https://huggingface.co/papers/2605.17543

摘要

HL-OutPaint 是一个高分辨率视频外扩框架，采用由粗到精的策略与全局粗粒度引导，能够在保持时空一致性的同时实现大空间外推和长序列生成。

视频外扩 (https://huggingface.co/papers?q=Video%20outpainting) 能够生成视频原始空间范围之外合理的视觉内容，在将视频适配到多种显示格式中扮演关键角色。为了支持这类应用场景，它必须能够对长序列实现大空间外推 (https://huggingface.co/papers?q=spatial%20extrapolation)。然而，现有大多数方法仅能解决其中一个挑战，或者缺乏确保全局时空一致性 (https://huggingface.co/papers?q=spatio-temporal%20consistency) 的明确机制，导致明显的局限性。在本文中，我们提出了 HL-OutPaint，一个面向长序列的高分辨率视频外扩 (https://huggingface.co/papers?q=video%20outpainting) 框架。我们的方法遵循由粗到精策略 (https://huggingface.co/papers?q=coarse-to-fine%20strategy)，采用两阶段流水线。我们首先构建全局粗粒度引导 (https://huggingface.co/papers?q=Global%20Coarse%20Guidance) (GCG)，这是一个低分辨率表示，捕捉视频的全局结构和主要运动。与简单的下采样不同，GCG 通过一种新颖的全局-局部帧交换机制 (https://huggingface.co/papers?q=global-local%20frame%20swapping%20mechanism) 构建，该机制将稀疏的全局关键帧与局部时间窗口耦合，并在采样过程中交换信息。这使得 GCG 能够将长期结构一致性与短期时间动态编码到统一的表示中。在此表示的引导下，HL-OutPaint 随后执行高分辨率外扩，生成空间细节丰富且时间一致的内容。通过将全局结构建模与细粒度合成分离，我们的框架实现了大空间扩展和长视频序列 (https://huggingface.co/papers?q=long%20video%20sequences) 的稳定、连贯生成。大量实验表明，HL-OutPaint 在涉及宽空间外推 (https://huggingface.co/papers?q=spatial%20extrapolation) 和长视频序列 (https://huggingface.co/papers?q=long%20video%20sequences) 的挑战性场景中优于现有方法。

查看 arXiv 页面 (https://arxiv.org/abs/2605.17543) 查看 PDF (https://arxiv.org/pdf/2605.17543) 项目页面 (https://koyy001.github.io/Publications/hl-outpaint) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.17543)

在你的代理中获取这篇论文：

hf papers read 2605\.17543

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.17543 以从该页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.17543 以从该页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.17543 以从该页面链接。

包含此论文的收藏0

没有包含此论文的收藏

添加此论文到收藏 (https://huggingface.co/new-collection) 以从该页面链接。

HL-OutPaint: 面向高分辨率长时视频的由粗到细视频外扩方法

论文页面 - HL-OutPaint：面向高分辨率长距离视频的由粗到精视频外扩

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

DALL·E: 推出外扩绘画功能

先素描后绘制：面向扩散多模态大语言模型的层次化强化学习

基于对数编码的潜空间对齐实现HDR视频生成

KVPO：基于ODE的原生GRPO框架通过KV语义探索实现自回归视频对齐

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

提交意见反馈