@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的:像素级保真度。潜在模型...

X AI KOLs Timeline 论文

摘要

NVIDIA 推出了 PiD,一种 Pixel Diffusion Decoder,用其替换潜在扩散模型中的传统 VAE/RAE 解码器,实现快速高分辨率解码,速度提升高达 6 倍,并改进了视觉保真度。

潜在vs像素的争论没有抓住要点。 GPT Image 2 展示了用户注意到的:像素级保真度。 潜在模型展示的是可扩展的:紧凑的语义结构。 我们通过用 Pixel Diffusion Decoder 替换 VAE/RAE 解码器来将它们连接起来。 代码和模型已发布:https://research.nvidia.com/labs/sil/projects/pid/… (1/N)
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:21

潜在空间与像素空间的争论没有抓住重点。

GPT Image 2 展示了用户注意到的:像素级保真度。 潜在模型展示了可扩展的:紧凑的语义结构。

我们通过用像素扩散解码器替换 VAE/RAE 解码器来将它们连接起来。

代码和模型可用:https://research.nvidia.com/labs/sil/projects/pid/…

(1/N)


使用像素扩散进行快速高分辨率的潜在空间解码

来源:https://research.nvidia.com/labs/sil/projects/pid/ SD3 PiD 解码

SD3 VAE 解码

VAE 解码器

PiD

DINOv2 PiD 解码

DINOv2 RAE 解码

RAE 解码器

PiD

Z-Image PiD 解码

Z-Image VAE 解码

VAE 解码器

PiD

Flux.2 PiD 解码

Flux.2 VAE 解码

VAE 解码器

PiD

摘要


大多数实用的高分辨率文本到图像系统都依赖于潜在扩散模型,其中生成过程在紧凑的潜在空间中进行,然后由解码器将潜在表示映射回像素。然而,潜在到像素的解码器是以重建为导向的,其优化目标是逆向编码器而非合成更多细节,并且在百万像素规模下成本越来越高。这一缺陷呼唤一种更具表现力和更高效率的解码范式。受近期可扩展像素空间扩散进展的启发,我们提出了PiD,一种Pixel diffusion Decoder(像素扩散解码器),它将潜在解码重构为条件像素扩散,将解码和上采样统一到一个生成模块中。通过在像素空间中直接去噪,PiD 能够以低延迟合成 4 倍甚至 8 倍上采样的图像。对于潜在空间条件,一个轻量级的 sigma 感知适配器将带噪的潜在表示注入像素扩散主干,使得 PiD 能够解码部分去噪的潜在表示,并提前终止潜在扩散过程。为进一步提高效率,我们使用 DMD2 对模型进行蒸馏,将推理步骤减少到仅 4 步。PiD 既适用于传统的 VAE 潜在表示,也适用于近期 RAE 模型(如 SigLIP、DINOv2)中使用的语义潜在表示。PiD 将 512×512 图像的潜在表示解码为 2048×2048 像素,在消费级 RTX 5090 上耗时不到 1 秒,峰值内存 13 GB,在 GB200 GPU 上最快可达 210 毫秒,比级联扩散超分辨率管线快约 6 倍,且视觉保真度更高。

结果


从潜在到像素

选择一个潜在空间并移动步进滑块,比较不同提前终止点下 PiD 的解码质量。拖动每张图像上的白色分隔线可查看 VAE/RAE 解码与 PiD 解码的对比。

4K 解码

使用 PiD 直接将潜在空间解码为 4K 图像。点击任意图像可启动与 VAE 解码器的并排对比。

基线对比

将鼠标悬停在任意图像上,即可在所有六个视图上激活同步缩放镜头。

定量结果(解码 + 上采样,512² → 2048²)

端到端解码延迟(毫秒)↓

PiD 比 SeedVR2 快5.9 倍(211.2 毫秒对比 1237.5 毫秒)

Gemini-3-Flash 判断评分(%)↑

各基线评估中,评委更偏好 PiD 的百分比。

方法


PiD 概述。 PiD 将潜在解码和上采样统一为一个受潜在条件约束的像素扩散模型,该模型预测目标分辨率的像素空间速度场。噪声污染潜在训练和 sigma 感知门控机制使解码器能够鲁棒处理部分去噪的潜在表示,从而允许从基础 LDM 提前退出,同时保持高分辨率输出质量。

相似文章

nVIDIA/PiD

Hugging Face Models Trending

NVIDIA 发布 PiD(Pixel Diffusion Decoder),这是一个条件像素空间扩散模型,将潜在空间到像素的解码和上采样统一到一个生成模块中,一次性生成超分辨率图像。模型检查点和 VAE 权重在非商业许可下发布。

PiD:基于像素扩散的快速高分辨率潜在解码

Hugging Face Daily Papers

PiD 提出了一种像素扩散解码器,将潜在解码重新定义为条件像素扩散,从而在高分辨率下实现快速、高质量的图像合成,并降低计算需求。在消费级硬件上,它能在不到一秒内将潜在表示解码为 4 倍或 8 倍放大图像。

L2P:释放像素生成的潜在潜力

Hugging Face Daily Papers

L2P 论文提出了一种潜在空间到像素空间(Latent-to-Pixel)的迁移范式,该范式利用预训练的潜在扩散模型(LDM),以极低的训练开销构建高效的像素空间模型,并实现 4K 分辨率生成。

zhen-nan/L2P

Hugging Face Models Trending

L2P 提出了一种高效的迁移范式,利用预训练的潜在扩散模型构建像素空间扩散模型,从而在极小的计算开销和数据需求下实现高质量生成,并支持原生 4K 分辨率。