基于对数编码的潜空间对齐实现HDR视频生成
摘要
本文提出一种HDR视频生成方法,通过对数编码对齐和模拟相机退化的训练策略,利用预训练生成模型实现高效的HDR合成,无需重新设计模型架构。该方法表明,只需将现有模型适配到与其先验知识自然对齐的表示上,即可实现HDR生成。
查看缓存全文
缓存时间: 2026/04/20 08:30
论文页面 - 利用对数编码潜在对齐实现HDR视频生成
来源:https://huggingface.co/papers/2604.11788 发布于 4月13日
·
提交者https://huggingface.co/matanby
Matan(https://huggingface.co/matanby)于 4月16日
摘要
高动态范围视频生成通过利用预训练模型,结合对数编码对齐和模拟相机退化训练实现,无需重新设计架构即可高效合成 HDR 内容。
高动态范围(https://huggingface.co/papers?q=High%20dynamic%20range)(HDR)图像能够真实丰富地表现场景辐射,但由于其与生成模型(https://huggingface.co/papers?q=generative%20models)训练所用有界、感知压缩数据不匹配,因此对生成模型仍具挑战性。一种自然的解决方案是学习新的 HDR 表示,但这会引入额外的复杂性和数据需求。本研究证明,通过利用预训练生成模型(https://huggingface.co/papers?q=generative%20models)已捕获的强视觉先验(https://huggingface.co/papers?q=visual%20priors),可以更简单的方式实现 HDR 生成。我们观察到,电影制作流程中广泛采用的对数编码(https://huggingface.co/papers?q=logarithmic%20encoding)能将 HDR 图像映射到与这些模型潜空间(https://huggingface.co/papers?q=latent%20space)自然对齐的分布,从而无需重新训练编码器,仅通过轻量级微调(https://huggingface.co/papers?q=lightweight%20fine-tuning)即可直接适配。为了恢复输入中无法直接观察到的细节,我们进一步引入基于模拟相机退化(https://huggingface.co/papers?q=camera-mimicking%20degradations)的训练策略,鼓励模型从其学习到的先验中推断缺失的高动态范围(https://huggingface.co/papers?q=high%20dynamic%20range)内容。结合这些洞察,我们展示了利用预训练视频模型,通过最小化适配即可生成高质量 HDR 视频(https://huggingface.co/papers?q=HDR%20video%20generation),在多种场景及挑战性光照条件下均取得强劲结果。我们的结果表明,尽管 HDR 代表了根本不同的成像机制,但只要所选表示与生成模型(https://huggingface.co/papers?q=generative%20models)学习到的先验对齐,就无需重新设计模型即可有效处理。
查看 arXiv 页面(https://arxiv.org/abs/2604.11788)查看 PDF(https://arxiv.org/pdf/2604.11788)项目页面(https://hdr-lumivid.github.io/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.11788)
在你的代理中获取此论文:
hf papers read 2604\.11788
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2604.11788,以便从此页面链接。
引用此论文的数据集 0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2604.11788,以便从此页面链接。
引用此论文的 Spaces 0
暂无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2604.11788,以便从此页面链接。
包含此论文的收藏 0
暂无收藏包含此论文
请将本论文添加到收藏(https://huggingface.co/new-collection),以便从此页面链接。
相似文章
将3D生成模型用于自回归布局生成
LaviGen是一个框架,它重用3D生成模型进行自回归3D布局生成,使用改进的3D扩散模型和dual-guidance self-rollout蒸馏机制,在LayoutVLM基准上实现了比最先进方法高19%的物理合理性和快65%的计算速度。
表征先于像素:语义引导的分层视频预测
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
使用CLIP潜在表示的分层文本条件图像生成
OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。
自回归视频生成的投机解码
SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。