zhen-nan/L2P
摘要
L2P 提出了一种高效的迁移范式,利用预训练的潜在扩散模型构建像素空间扩散模型,从而在极小的计算开销和数据需求下实现高质量生成,并支持原生 4K 分辨率。
查看缓存全文
缓存时间: 2026/05/27 08:02
zhen-nan/L2P · Hugging Face
来源:https://huggingface.co/zhen-nan/L2P
https://huggingface.co/zhen-nan/L2P#l2p-unlocking-latent-potential-for-pixel-generationL2P:释放潜在能力用于像素生成
项目页面 (https://nju-pcalab.github.io/projects/L2P/)arXiv (https://arxiv.org/abs/2605.12013)
一种高效的迁移范式,能够以极少的计算开销和数据需求,实现高质量、端到端的像素空间扩散。
像素扩散模型最近重新引起了视觉生成领域的关注。然而,从头开始训练先进的像素空间模型需要巨大的计算和数据资源。为了解决这一问题,我们提出了潜在到像素(L2P)迁移范式,这是一种高效框架,直接利用预训练LDM的丰富知识来构建强大的像素空间模型。具体来说,L2P舍弃了VAE,转而采用大块分词化,并冻结源LDM的中间层,只训练浅层网络来学习从潜在到像素的变换。通过使用LDM生成的合成图像作为唯一的训练语料,L2P拟合了一个已经平滑的数据流形,从而实现快速收敛,无需收集任何真实数据。这一策略使得L2P仅需8块GPU即可将海量潜在先验无缝迁移到像素空间。此外,消除VAE内存瓶颈后,L2P能够原生支持4K超高清分辨率生成。在主流LDM架构上的大量实验表明,L2P的训练开销几乎可以忽略不计,但在DPG-Bench上的表现与源LDM相当,并在GenEval上达到了93%的性能。
相似文章
L2P:释放像素生成的潜在潜力
L2P 论文提出了一种潜在空间到像素空间(Latent-to-Pixel)的迁移范式,该范式利用预训练的潜在扩散模型(LDM),以极低的训练开销构建高效的像素空间模型,并实现 4K 分辨率生成。
@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的:像素级保真度。潜在模型...
NVIDIA 推出了 PiD,一种 Pixel Diffusion Decoder,用其替换潜在扩散模型中的传统 VAE/RAE 解码器,实现快速高分辨率解码,速度提升高达 6 倍,并改进了视觉保真度。
PiD:基于像素扩散的快速高分辨率潜在解码
PiD 提出了一种像素扩散解码器,将潜在解码重新定义为条件像素扩散,从而在高分辨率下实现快速、高质量的图像合成,并降低计算需求。在消费级硬件上,它能在不到一秒内将潜在表示解码为 4 倍或 8 倍放大图像。
nVIDIA/PiD
NVIDIA 发布 PiD(Pixel Diffusion Decoder),这是一个条件像素空间扩散模型,将潜在空间到像素的解码和上采样统一到一个生成模块中,一次性生成超分辨率图像。模型检查点和 VAE 权重在非商业许可下发布。
@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD,重新设计了 latent 扩散模型里的解码环节。 目前主流文生图都在 latent 空间生成,再用 VAE decoder 映射回像素。这个 decoder 的…
NVIDIA Spatial Intelligence Lab 提出 PiD,将 latent 扩散模型的解码环节重新设计为条件像素扩散过程,统一解码与上采样,实现低延迟高分辨率解码。