@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的：像素级保真度。潜在模型...

X AI KOLs Timeline 2026/05/26 15:41 论文

image-generation latent-diffusion pixel-diffusion decoding upsampling nvidia-research

摘要

NVIDIA 推出了 PiD，一种 Pixel Diffusion Decoder，用其替换潜在扩散模型中的传统 VAE/RAE 解码器，实现快速高分辨率解码，速度提升高达 6 倍，并改进了视觉保真度。

潜在vs像素的争论没有抓住要点。 GPT Image 2 展示了用户注意到的：像素级保真度。潜在模型展示的是可扩展的：紧凑的语义结构。我们通过用 Pixel Diffusion Decoder 替换 VAE/RAE 解码器来将它们连接起来。代码和模型已发布：https://research.nvidia.com/labs/sil/projects/pid/… (1/N)

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:21

潜在空间与像素空间的争论没有抓住重点。

GPT Image 2 展示了用户注意到的：像素级保真度。潜在模型展示了可扩展的：紧凑的语义结构。

我们通过用像素扩散解码器替换 VAE/RAE 解码器来将它们连接起来。

代码和模型可用：https://research.nvidia.com/labs/sil/projects/pid/…

(1/N)

使用像素扩散进行快速高分辨率的潜在空间解码

来源：https://research.nvidia.com/labs/sil/projects/pid/ SD3 PiD 解码

SD3 VAE 解码

VAE 解码器

PiD

DINOv2 PiD 解码

DINOv2 RAE 解码

RAE 解码器

PiD

Z-Image PiD 解码

Z-Image VAE 解码

VAE 解码器

PiD

Flux.2 PiD 解码

Flux.2 VAE 解码

VAE 解码器

PiD

摘要

大多数实用的高分辨率文本到图像系统都依赖于潜在扩散模型，其中生成过程在紧凑的潜在空间中进行，然后由解码器将潜在表示映射回像素。然而，潜在到像素的解码器是以重建为导向的，其优化目标是逆向编码器而非合成更多细节，并且在百万像素规模下成本越来越高。这一缺陷呼唤一种更具表现力和更高效率的解码范式。受近期可扩展像素空间扩散进展的启发，我们提出了PiD，一种Pixel diffusion Decoder（像素扩散解码器），它将潜在解码重构为条件像素扩散，将解码和上采样统一到一个生成模块中。通过在像素空间中直接去噪，PiD 能够以低延迟合成 4 倍甚至 8 倍上采样的图像。对于潜在空间条件，一个轻量级的 sigma 感知适配器将带噪的潜在表示注入像素扩散主干，使得 PiD 能够解码部分去噪的潜在表示，并提前终止潜在扩散过程。为进一步提高效率，我们使用 DMD2 对模型进行蒸馏，将推理步骤减少到仅 4 步。PiD 既适用于传统的 VAE 潜在表示，也适用于近期 RAE 模型（如 SigLIP、DINOv2）中使用的语义潜在表示。PiD 将 512×512 图像的潜在表示解码为 2048×2048 像素，在消费级 RTX 5090 上耗时不到 1 秒，峰值内存 13 GB，在 GB200 GPU 上最快可达 210 毫秒，比级联扩散超分辨率管线快约 6 倍，且视觉保真度更高。

结果

从潜在到像素

选择一个潜在空间并移动步进滑块，比较不同提前终止点下 PiD 的解码质量。拖动每张图像上的白色分隔线可查看 VAE/RAE 解码与 PiD 解码的对比。

4K 解码

使用 PiD 直接将潜在空间解码为 4K 图像。点击任意图像可启动与 VAE 解码器的并排对比。

基线对比

将鼠标悬停在任意图像上，即可在所有六个视图上激活同步缩放镜头。

定量结果（解码 + 上采样，512² → 2048²）

端到端解码延迟（毫秒）↓

PiD 比 SeedVR2 快5.9 倍（211.2 毫秒对比 1237.5 毫秒）

Gemini-3-Flash 判断评分（%）↑

各基线评估中，评委更偏好 PiD 的百分比。

方法

PiD 概述。 PiD 将潜在解码和上采样统一为一个受潜在条件约束的像素扩散模型，该模型预测目标分辨率的像素空间速度场。噪声污染潜在训练和 sigma 感知门控机制使解码器能够鲁棒处理部分去噪的潜在表示，从而允许从基础 LDM 提前退出，同时保持高分辨率输出质量。

相似文章

nVIDIA/PiD

Hugging Face Models Trending

NVIDIA 发布 PiD（Pixel Diffusion Decoder），这是一个条件像素空间扩散模型，将潜在空间到像素的解码和上采样统一到一个生成模块中，一次性生成超分辨率图像。模型检查点和 VAE 权重在非商业许可下发布。

PiD：基于像素扩散的快速高分辨率潜在解码

Hugging Face Daily Papers

PiD 提出了一种像素扩散解码器，将潜在解码重新定义为条件像素扩散，从而在高分辨率下实现快速、高质量的图像合成，并降低计算需求。在消费级硬件上，它能在不到一秒内将潜在表示解码为 4 倍或 8 倍放大图像。

@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD，重新设计了 latent 扩散模型里的解码环节。目前主流文生图都在 latent 空间生成，再用 VAE decoder 映射回像素。这个 decoder 的…

X AI KOLs Timeline

NVIDIA Spatial Intelligence Lab 提出 PiD，将 latent 扩散模型的解码环节重新设计为条件像素扩散过程，统一解码与上采样，实现低延迟高分辨率解码。

L2P：释放像素生成的潜在潜力

Hugging Face Daily Papers

L2P 论文提出了一种潜在空间到像素空间（Latent-to-Pixel）的迁移范式，该范式利用预训练的潜在扩散模型（LDM），以极低的训练开销构建高效的像素空间模型，并实现 4K 分辨率生成。

zhen-nan/L2P

Hugging Face Models Trending

L2P 提出了一种高效的迁移范式，利用预训练的潜在扩散模型构建像素空间扩散模型，从而在极小的计算开销和数据需求下实现高质量生成，并支持原生 4K 分辨率。

使用像素扩散进行快速高分辨率的潜在空间解码

摘要

结果

从潜在到像素

4K 解码

基线对比

定量结果（解码 + 上采样，512² → 2048²）

方法

相似文章

nVIDIA/PiD

PiD：基于像素扩散的快速高分辨率潜在解码

@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD，重新设计了 latent 扩散模型里的解码环节。 目前主流文生图都在 latent 空间生成，再用 VAE decoder 映射回像素。这个 decoder 的…

L2P：释放像素生成的潜在潜力

zhen-nan/L2P

提交意见反馈

@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD，重新设计了 latent 扩散模型里的解码环节。目前主流文生图都在 latent 空间生成，再用 VAE decoder 映射回像素。这个 decoder 的…