基于对数编码的潜空间对齐实现HDR视频生成

Hugging Face Daily Papers 2026/04/13 00:00 论文

摘要

本文提出一种HDR视频生成方法，通过对数编码对齐和模拟相机退化的训练策略，利用预训练生成模型实现高效的HDR合成，无需重新设计模型架构。该方法表明，只需将现有模型适配到与其先验知识自然对齐的表示上，即可实现HDR生成。

高动态范围（HDR）图像能够提供场景辐亮度的丰富且真实的表示，但由于其与生成模型训练时所使用的有界、感知压缩数据不匹配，对生成模型而言仍具有挑战性。一种自然的解决方案是为HDR学习新的表示，但这会引入额外的复杂性和数据需求。本工作中，我们展示了可以通过利用预训练生成模型已捕获的强大视觉先验，以更简单的方式实现HDR生成。我们观察到，电影制作流程中广泛使用的对数编码可将HDR图像映射为一种与这些模型潜空间自然对齐的分布，从而通过轻量级微调直接适配，无需重新训练编码器。为了恢复输入中不可直接观测的细节，我们进一步引入一种基于模拟相机退化的训练策略，鼓励模型从其学习到的先验中推断缺失的高动态范围内容。结合这些发现，我们使用预训练视频模型经过最小化适配，展示了高质量的HDR视频生成，在多样化场景和具有挑战性的光照条件下均取得了强劲结果。我们的结果表明，尽管HDR代表了一种根本不同的图像形成机制，但只要选择与其学习先验对齐的表示，就能在不重新设计生成模型的情况下有效处理HDR。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:30

论文页面 - 利用对数编码潜在对齐实现HDR视频生成

来源：https://huggingface.co/papers/2604.11788 发布于 4月13日

提交者https://huggingface.co/matanby

Matan（https://huggingface.co/matanby）于 4月16日

摘要

高动态范围视频生成通过利用预训练模型，结合对数编码对齐和模拟相机退化训练实现，无需重新设计架构即可高效合成 HDR 内容。

高动态范围（https://huggingface.co/papers?q=High%20dynamic%20range）（HDR）图像能够真实丰富地表现场景辐射，但由于其与生成模型（https://huggingface.co/papers?q=generative%20models）训练所用有界、感知压缩数据不匹配，因此对生成模型仍具挑战性。一种自然的解决方案是学习新的 HDR 表示，但这会引入额外的复杂性和数据需求。本研究证明，通过利用预训练生成模型（https://huggingface.co/papers?q=generative%20models）已捕获的强视觉先验（https://huggingface.co/papers?q=visual%20priors），可以更简单的方式实现 HDR 生成。我们观察到，电影制作流程中广泛采用的对数编码（https://huggingface.co/papers?q=logarithmic%20encoding）能将 HDR 图像映射到与这些模型潜空间（https://huggingface.co/papers?q=latent%20space）自然对齐的分布，从而无需重新训练编码器，仅通过轻量级微调（https://huggingface.co/papers?q=lightweight%20fine-tuning）即可直接适配。为了恢复输入中无法直接观察到的细节，我们进一步引入基于模拟相机退化（https://huggingface.co/papers?q=camera-mimicking%20degradations）的训练策略，鼓励模型从其学习到的先验中推断缺失的高动态范围（https://huggingface.co/papers?q=high%20dynamic%20range）内容。结合这些洞察，我们展示了利用预训练视频模型，通过最小化适配即可生成高质量 HDR 视频（https://huggingface.co/papers?q=HDR%20video%20generation），在多种场景及挑战性光照条件下均取得强劲结果。我们的结果表明，尽管 HDR 代表了根本不同的成像机制，但只要所选表示与生成模型（https://huggingface.co/papers?q=generative%20models）学习到的先验对齐，就无需重新设计模型即可有效处理。

查看 arXiv 页面（https://arxiv.org/abs/2604.11788）查看 PDF（https://arxiv.org/pdf/2604.11788）项目页面（https://hdr-lumivid.github.io/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.11788）

在你的代理中获取此论文：

hf papers read 2604\.11788

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.11788，以便从此页面链接。

引用此论文的数据集 0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.11788，以便从此页面链接。

引用此论文的 Spaces 0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.11788，以便从此页面链接。

包含此论文的收藏 0

暂无收藏包含此论文

请将本论文添加到收藏（https://huggingface.co/new-collection），以便从此页面链接。

基于对数编码的潜空间对齐实现HDR视频生成

论文页面 - 利用对数编码潜在对齐实现HDR视频生成

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏 0

相似文章

将3D生成模型用于自回归布局生成

表征先于像素：语义引导的分层视频预测

ReImagine：以图像为先的可控高质量人体视频生成新思路

使用CLIP潜在表示的分层文本条件图像生成

自回归视频生成的投机解码

提交意见反馈