HL-OutPaint: 面向高分辨率长时视频的由粗到细视频外扩方法
摘要
HL-OutPaint 是一个面向高分辨率长时视频的由粗到细视频外扩框架,利用全局粗粒度引导实现大空间外推,同时保持时空一致性。
查看缓存全文
缓存时间: 2026/06/01 15:20
论文页面 - HL-OutPaint:面向高分辨率长距离视频的由粗到精视频外扩
来源:https://huggingface.co/papers/2605.17543
摘要
HL-OutPaint 是一个高分辨率视频外扩框架,采用由粗到精的策略与全局粗粒度引导,能够在保持时空一致性的同时实现大空间外推和长序列生成。
视频外扩 (https://huggingface.co/papers?q=Video%20outpainting) 能够生成视频原始空间范围之外合理的视觉内容,在将视频适配到多种显示格式中扮演关键角色。为了支持这类应用场景,它必须能够对长序列实现大空间外推 (https://huggingface.co/papers?q=spatial%20extrapolation)。然而,现有大多数方法仅能解决其中一个挑战,或者缺乏确保全局时空一致性 (https://huggingface.co/papers?q=spatio-temporal%20consistency) 的明确机制,导致明显的局限性。在本文中,我们提出了 HL-OutPaint,一个面向长序列的高分辨率视频外扩 (https://huggingface.co/papers?q=video%20outpainting) 框架。我们的方法遵循由粗到精策略 (https://huggingface.co/papers?q=coarse-to-fine%20strategy),采用两阶段流水线。我们首先构建全局粗粒度引导 (https://huggingface.co/papers?q=Global%20Coarse%20Guidance) (GCG),这是一个低分辨率表示,捕捉视频的全局结构和主要运动。与简单的下采样不同,GCG 通过一种新颖的全局-局部帧交换机制 (https://huggingface.co/papers?q=global-local%20frame%20swapping%20mechanism) 构建,该机制将稀疏的全局关键帧与局部时间窗口耦合,并在采样过程中交换信息。这使得 GCG 能够将长期结构一致性与短期时间动态编码到统一的表示中。在此表示的引导下,HL-OutPaint 随后执行高分辨率外扩,生成空间细节丰富且时间一致的内容。通过将全局结构建模与细粒度合成分离,我们的框架实现了大空间扩展和长视频序列 (https://huggingface.co/papers?q=long%20video%20sequences) 的稳定、连贯生成。大量实验表明,HL-OutPaint 在涉及宽空间外推 (https://huggingface.co/papers?q=spatial%20extrapolation) 和长视频序列 (https://huggingface.co/papers?q=long%20video%20sequences) 的挑战性场景中优于现有方法。
查看 arXiv 页面 (https://arxiv.org/abs/2605.17543) 查看 PDF (https://arxiv.org/pdf/2605.17543) 项目页面 (https://koyy001.github.io/Publications/hl-outpaint) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.17543)
在你的代理中获取这篇论文:
hf papers read 2605\.17543
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.17543 以从该页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.17543 以从该页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.17543 以从该页面链接。
包含此论文的收藏0
没有包含此论文的收藏
添加此论文到收藏 (https://huggingface.co/new-collection) 以从该页面链接。
相似文章
DALL·E: 推出外扩绘画功能
OpenAI 为 DALL·E 推出外扩绘画功能,使用户能够扩展生成或上传的图像,创建任意宽高比的大规模图像,同时保持阴影、反射和纹理的视觉一致性。
先素描后绘制:面向扩散多模态大语言模型的层次化强化学习
本文提出HT-GRPO,一种面向扩散多模态大语言模型的层次化强化学习方法,它采用先素描后绘制的训练方案和层次化信用分配机制,以提升图像生成质量和奖励对齐效果。
基于对数编码的潜空间对齐实现HDR视频生成
本文提出一种HDR视频生成方法,通过对数编码对齐和模拟相机退化的训练策略,利用预训练生成模型实现高效的HDR合成,无需重新设计模型架构。该方法表明,只需将现有模型适配到与其先验知识自然对齐的表示上,即可实现HDR生成。
KVPO:基于ODE的原生GRPO框架通过KV语义探索实现自回归视频对齐
KVPO提出了一种基于ODE的原生在线GRPO框架,通过因果语义KV缓存探索和速度场替代策略,将流式自回归视频生成器与人类偏好对齐,在视觉质量和对齐度上实现了持续改进。
LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放
LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。