zhen-nan/L2P

Hugging Face Models Trending 2026/05/03 13:24 论文

摘要

L2P 提出了一种高效的迁移范式，利用预训练的潜在扩散模型构建像素空间扩散模型，从而在极小的计算开销和数据需求下实现高质量生成，并支持原生 4K 分辨率。

标签: arxiv:2605.12013, 许可证: apache-2.0, 地区: us

查看原文

查看缓存全文

缓存时间: 2026/05/27 08:02

zhen-nan/L2P · Hugging Face

来源：https://huggingface.co/zhen-nan/L2P

https://huggingface.co/zhen-nan/L2P#l2p-unlocking-latent-potential-for-pixel-generationL2P：释放潜在能力用于像素生成

项目页面 (https://nju-pcalab.github.io/projects/L2P/)arXiv (https://arxiv.org/abs/2605.12013)

一种高效的迁移范式，能够以极少的计算开销和数据需求，实现高质量、端到端的像素空间扩散。

像素扩散模型最近重新引起了视觉生成领域的关注。然而，从头开始训练先进的像素空间模型需要巨大的计算和数据资源。为了解决这一问题，我们提出了潜在到像素（L2P）迁移范式，这是一种高效框架，直接利用预训练LDM的丰富知识来构建强大的像素空间模型。具体来说，L2P舍弃了VAE，转而采用大块分词化，并冻结源LDM的中间层，只训练浅层网络来学习从潜在到像素的变换。通过使用LDM生成的合成图像作为唯一的训练语料，L2P拟合了一个已经平滑的数据流形，从而实现快速收敛，无需收集任何真实数据。这一策略使得L2P仅需8块GPU即可将海量潜在先验无缝迁移到像素空间。此外，消除VAE内存瓶颈后，L2P能够原生支持4K超高清分辨率生成。在主流LDM架构上的大量实验表明，L2P的训练开销几乎可以忽略不计，但在DPG-Bench上的表现与源LDM相当，并在GenEval上达到了93%的性能。

@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD，重新设计了 latent 扩散模型里的解码环节。目前主流文生图都在 latent 空间生成，再用 VAE decoder 映射回像素。这个 decoder 的…

X AI KOLs Timeline

NVIDIA Spatial Intelligence Lab 提出 PiD，将 latent 扩散模型的解码环节重新设计为条件像素扩散过程，统一解码与上采样，实现低延迟高分辨率解码。

zhen-nan/L2P

zhen-nan/L2P · Hugging Face

https://huggingface.co/zhen-nan/L2P#l2p-unlocking-latent-potential-for-pixel-generationL2P：释放潜在能力用于像素生成

相似文章

L2P：释放像素生成的潜在潜力

@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的：像素级保真度。潜在模型...

PiD：基于像素扩散的快速高分辨率潜在解码

nVIDIA/PiD

@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD，重新设计了 latent 扩散模型里的解码环节。目前主流文生图都在 latent 空间生成，再用 VAE decoder 映射回像素。这个 decoder 的…

提交意见反馈

zhen-nan/L2P · Hugging Face

https://huggingface.co/zhen-nan/L2P#l2p-unlocking-latent-potential-for-pixel-generationL2P：释放潜在能力用于像素生成

相似文章

L2P：释放像素生成的潜在潜力

@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的：像素级保真度。潜在模型...

PiD：基于像素扩散的快速高分辨率潜在解码

nVIDIA/PiD

@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD，重新设计了 latent 扩散模型里的解码环节。 目前主流文生图都在 latent 空间生成，再用 VAE decoder 映射回像素。这个 decoder 的…

提交意见反馈

@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD，重新设计了 latent 扩散模型里的解码环节。目前主流文生图都在 latent 空间生成，再用 VAE decoder 映射回像素。这个 decoder 的…