L2P：释放像素生成的潜在潜力

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

L2P 论文提出了一种潜在空间到像素空间（Latent-to-Pixel）的迁移范式，该范式利用预训练的潜在扩散模型（LDM），以极低的训练开销构建高效的像素空间模型，并实现 4K 分辨率生成。

像素扩散模型最近在视觉生成领域重新引起了关注。然而，从头训练先进的像素空间模型需要耗费 prohibitive（难以承受的）计算和数据资源。为此，我们提出了潜在空间到像素空间（L2P）迁移范式，这是一个高效的框架，可直接利用预训练潜在扩散模型（LDM）中丰富的知识来构建强大的像素空间模型。具体而言，L2P 摒弃了变分自编码器（VAE），转而采用大 patch 标记化（large-patch tokenization），并冻结源 LDM 的中间层，仅训练浅层网络以学习从潜在空间到像素空间的变换。通过使用 LDM 生成的合成图像作为唯一的训练语料库，L2P 拟合了一个已经平滑的数据流形，从而在无需收集任何真实数据的情况下实现快速收敛。该策略使得 L2P 仅需 8 块 GPU 即可将海量的潜在先验知识无缝迁移至像素空间。此外，消除 VAE 带来的内存瓶颈解锁了原生的 4K 超高分辨率生成能力。针对主流 LDM 架构的大量实验表明，L2P 带来的训练开销微乎其微，但在 DPG-Bench 上的表现与源 LDM 相当，在 GenEval 上的性能达到了 93%。

查看原文

查看缓存全文

缓存时间: 2026/05/13 08:11

论文页面 - L2P：释放潜在潜力以实现像素生成

来源：https://huggingface.co/papers/2605.12013 发表于 5月12日

由 https://huggingface.co/zhen-nan 提交

chen (https://huggingface.co/zhen-nan) 于 5月13日

摘要

Latent-to-Pixel（潜在到像素）转移范式高效地利用了预训练的潜在扩散模型，以极低的训练开销和高分辨率生成能力创建像素空间模型。

Pixel diffusion models（像素扩散模型，https://huggingface.co/papers?q=Pixel%20diffusion%20models）最近在视觉生成领域重新受到关注。然而，从头训练先进的像素空间模型需要高昂的计算和数据资源。为了解决这个问题，我们提出了 Latent-to-Pixel (L2P) 转移范式，这是一个高效的框架，直接利用预训练 LDM（潜在扩散模型）的丰富知识来构建强大的像素空间模型。具体而言，L2P 弃用了 VAE（变分自编码器，https://huggingface.co/papers?q=VAE），转而采用 large-patch tokenization（大补丁分词，https://huggingface.co/papers?q=large-patch%20tokenization），并冻结源 LDM 的 intermediate layers（中间层，https://huggingface.co/papers?q=intermediate%20layers），仅训练 shallow layers（浅层，https://huggingface.co/papers?q=shallow%20layers）以学习从潜空间到像素的转换。通过使用 LDM 生成的 synthetic images（合成图像，https://huggingface.co/papers?q=synthetic%20images）作为唯一的训练语料，L2P 拟合了已经平滑的 data manifold（数据流形，https://huggingface.co/papers?q=data%20manifold），实现了无需收集真实数据即可快速收敛。这一策略使得 L2P 仅使用 8 个 GPU 就能将大量的潜在先验无缝迁移到像素空间。此外，消除 VAE 的内存瓶颈解锁了原生 4K 超高分辨率生成（4K ultra-high resolution generation，https://huggingface.co/papers?q=4K%20ultra-high%20resolution%20generation）。针对主流 LDM 架构的大量实验表明，L2P 的训练开销极小，但在 DPG-Bench（https://huggingface.co/papers?q=DPG-Bench）上的表现与源 LDM 相当，并在 GenEval（https://huggingface.co/papers?q=GenEval）上达到了 93% 的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12013) 查看 PDF (https://arxiv.org/pdf/2605.12013) 项目页面 (https://nju-pcalab.github.io/projects/L2P/) GitHub8 (https://github.com/NJU-PCALab/L2P) 添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.12013)

在你的 agent 中获取此论文：

hf papers read 2605\.12013

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.12013 以从此页面链接它。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.12013 以从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.12013 以从此页面链接它。

包含此论文的集合 0

没有集合包含此论文

将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

zhen-nan/L2P

Hugging Face Models Trending

L2P 提出了一种高效的迁移范式，利用预训练的潜在扩散模型构建像素空间扩散模型，从而在极小的计算开销和数据需求下实现高质量生成，并支持原生 4K 分辨率。

@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的：像素级保真度。潜在模型...

X AI KOLs Timeline

NVIDIA 推出了 PiD，一种 Pixel Diffusion Decoder，用其替换潜在扩散模型中的传统 VAE/RAE 解码器，实现快速高分辨率解码，速度提升高达 6 倍，并改进了视觉保真度。

PiD：基于像素扩散的快速高分辨率潜在解码

Hugging Face Daily Papers

PiD 提出了一种像素扩散解码器，将潜在解码重新定义为条件像素扩散，从而在高分辨率下实现快速、高质量的图像合成，并降低计算需求。在消费级硬件上，它能在不到一秒内将潜在表示解码为 4 倍或 8 倍放大图像。

@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD，重新设计了 latent 扩散模型里的解码环节。目前主流文生图都在 latent 空间生成，再用 VAE decoder 映射回像素。这个 decoder 的…