@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的:像素级保真度。潜在模型...
摘要
NVIDIA 推出了 PiD,一种 Pixel Diffusion Decoder,用其替换潜在扩散模型中的传统 VAE/RAE 解码器,实现快速高分辨率解码,速度提升高达 6 倍,并改进了视觉保真度。
查看缓存全文
缓存时间: 2026/05/27 09:21
潜在空间与像素空间的争论没有抓住重点。
GPT Image 2 展示了用户注意到的:像素级保真度。 潜在模型展示了可扩展的:紧凑的语义结构。
我们通过用像素扩散解码器替换 VAE/RAE 解码器来将它们连接起来。
代码和模型可用:https://research.nvidia.com/labs/sil/projects/pid/…
(1/N)
使用像素扩散进行快速高分辨率的潜在空间解码
来源:https://research.nvidia.com/labs/sil/projects/pid/ SD3 PiD 解码
SD3 VAE 解码
VAE 解码器
PiD
DINOv2 PiD 解码
DINOv2 RAE 解码
RAE 解码器
PiD
Z-Image PiD 解码
Z-Image VAE 解码
VAE 解码器
PiD
Flux.2 PiD 解码
Flux.2 VAE 解码
VAE 解码器
PiD
摘要
大多数实用的高分辨率文本到图像系统都依赖于潜在扩散模型,其中生成过程在紧凑的潜在空间中进行,然后由解码器将潜在表示映射回像素。然而,潜在到像素的解码器是以重建为导向的,其优化目标是逆向编码器而非合成更多细节,并且在百万像素规模下成本越来越高。这一缺陷呼唤一种更具表现力和更高效率的解码范式。受近期可扩展像素空间扩散进展的启发,我们提出了PiD,一种Pixel diffusion Decoder(像素扩散解码器),它将潜在解码重构为条件像素扩散,将解码和上采样统一到一个生成模块中。通过在像素空间中直接去噪,PiD 能够以低延迟合成 4 倍甚至 8 倍上采样的图像。对于潜在空间条件,一个轻量级的 sigma 感知适配器将带噪的潜在表示注入像素扩散主干,使得 PiD 能够解码部分去噪的潜在表示,并提前终止潜在扩散过程。为进一步提高效率,我们使用 DMD2 对模型进行蒸馏,将推理步骤减少到仅 4 步。PiD 既适用于传统的 VAE 潜在表示,也适用于近期 RAE 模型(如 SigLIP、DINOv2)中使用的语义潜在表示。PiD 将 512×512 图像的潜在表示解码为 2048×2048 像素,在消费级 RTX 5090 上耗时不到 1 秒,峰值内存 13 GB,在 GB200 GPU 上最快可达 210 毫秒,比级联扩散超分辨率管线快约 6 倍,且视觉保真度更高。
结果
从潜在到像素
选择一个潜在空间并移动步进滑块,比较不同提前终止点下 PiD 的解码质量。拖动每张图像上的白色分隔线可查看 VAE/RAE 解码与 PiD 解码的对比。
4K 解码
使用 PiD 直接将潜在空间解码为 4K 图像。点击任意图像可启动与 VAE 解码器的并排对比。
基线对比
将鼠标悬停在任意图像上,即可在所有六个视图上激活同步缩放镜头。
定量结果(解码 + 上采样,512² → 2048²)
端到端解码延迟(毫秒)↓
PiD 比 SeedVR2 快5.9 倍(211.2 毫秒对比 1237.5 毫秒)
Gemini-3-Flash 判断评分(%)↑
各基线评估中,评委更偏好 PiD 的百分比。
方法
PiD 概述。 PiD 将潜在解码和上采样统一为一个受潜在条件约束的像素扩散模型,该模型预测目标分辨率的像素空间速度场。噪声污染潜在训练和 sigma 感知门控机制使解码器能够鲁棒处理部分去噪的潜在表示,从而允许从基础 LDM 提前退出,同时保持高分辨率输出质量。
相似文章
nVIDIA/PiD
NVIDIA 发布 PiD(Pixel Diffusion Decoder),这是一个条件像素空间扩散模型,将潜在空间到像素的解码和上采样统一到一个生成模块中,一次性生成超分辨率图像。模型检查点和 VAE 权重在非商业许可下发布。
PiD:基于像素扩散的快速高分辨率潜在解码
PiD 提出了一种像素扩散解码器,将潜在解码重新定义为条件像素扩散,从而在高分辨率下实现快速、高质量的图像合成,并降低计算需求。在消费级硬件上,它能在不到一秒内将潜在表示解码为 4 倍或 8 倍放大图像。
@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD,重新设计了 latent 扩散模型里的解码环节。 目前主流文生图都在 latent 空间生成,再用 VAE decoder 映射回像素。这个 decoder 的…
NVIDIA Spatial Intelligence Lab 提出 PiD,将 latent 扩散模型的解码环节重新设计为条件像素扩散过程,统一解码与上采样,实现低延迟高分辨率解码。
L2P:释放像素生成的潜在潜力
L2P 论文提出了一种潜在空间到像素空间(Latent-to-Pixel)的迁移范式,该范式利用预训练的潜在扩散模型(LDM),以极低的训练开销构建高效的像素空间模型,并实现 4K 分辨率生成。
zhen-nan/L2P
L2P 提出了一种高效的迁移范式,利用预训练的潜在扩散模型构建像素空间扩散模型,从而在极小的计算开销和数据需求下实现高质量生成,并支持原生 4K 分辨率。