latent-diffusion

#latent-diffusion

@artemZholus：谢谢！在第二篇论文（https://arxiv.org/abs/2605.06388）中，我们采用了您（和RAE）的方案，效果不错。

X AI KOLs Following ↗ · 2026-05-26 缓存

本文系统地比较了基于重建和基于语义的潜在空间在机器人行动条件潜在扩散世界模型中的应用。研究发现，像V-JEPA 2.1这样的语义编码器在策略相关指标上通常优于重建编码器，从而主张将语义潜在空间作为机器人世界模型的更强基础。

0 人收藏 0 人点赞

#latent-diffusion

@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的：像素级保真度。潜在模型...

X AI KOLs Timeline ↗ · 2026-05-26 缓存

NVIDIA 推出了 PiD，一种 Pixel Diffusion Decoder，用其替换潜在扩散模型中的传统 VAE/RAE 解码器，实现快速高分辨率解码，速度提升高达 6 倍，并改进了视觉保真度。

0 人收藏 0 人点赞

#latent-diffusion

@FeitengLi: NVIDIA Spatial Intelligence Lab 提出 PiD，重新设计了 latent 扩散模型里的解码环节。目前主流文生图都在 latent 空间生成，再用 VAE decoder 映射回像素。这个 decoder 的…

X AI KOLs Timeline ↗ · 2026-05-25 缓存

NVIDIA Spatial Intelligence Lab 提出 PiD，将 latent 扩散模型的解码环节重新设计为条件像素扩散过程，统一解码与上采样，实现低延迟高分辨率解码。

0 人收藏 0 人点赞

#latent-diffusion

AirfoilGen：一种构造有效且性能感知的翼型潜扩散模型

arXiv cs.LG ↗ · 2026-05-21 缓存

本文提出AirfoilGen，一种用于翼型形状生成的潜扩散模型，通过圆形扫掠表示确保几何有效性，并能够控制气动性能（升力/阻力系数）。实验表明，使用超过20万个翼型的新数据集，性能条件化准确率达到98.41%。

0 人收藏 0 人点赞

#latent-diffusion

流形假设下可证明的扩散模型学习：坍缩与精炼

arXiv cs.LG ↗ · 2026-05-21 缓存

本文识别了流形假设下扩散模型中的坍缩与精炼机制，提出了分数诱导潜在扩散（SiLD），该方法可证明地避免了维度灾难。实验表明，SiLD在生成质量上匹配或超越基于VAE的潜在扩散模型。

0 人收藏 0 人点赞

#latent-diffusion

Stable Audio 3

Hacker News Top ↗ · 2026-05-20 缓存

Stable Audio 3 推出了一系列快速潜扩散模型，用于变长音频生成与编辑，并开源了中小型模型权重。

0 人收藏 0 人点赞

#latent-diffusion

当潜在几何不够时：面向非自回归文本生成的草稿条件潜在精炼

arXiv cs.CL ↗ · 2026-05-18 缓存

本技术报告研究了面向非自回归文本生成的草稿条件潜在精炼，表明良好的潜在几何并不能保证良好的解码，并强调解码器可恢复性作为关键评估指标。

0 人收藏 0 人点赞

#latent-diffusion

ByteDance-Seed/Cola-DLM · Hugging Face

Reddit r/LocalLLaMA ↗ · 2026-05-15 缓存

字节跳动发布Cola-DLM，一种层次化连续潜在空间扩散语言模型，结合了文本VAE和块因果扩散Transformer，在Hugging Face上提供模型权重、代码和论文。

0 人收藏 0 人点赞

#latent-diffusion

世界-动作交互模型的DAWN

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文介绍了DAWN，一种用于世界-动作交互模型（WAIMs）的潜在生成基线，通过递归细化联合建模场景演化与动作生成，在自动驾驶场景中实现了强大的长时域规划性能。

0 人收藏 0 人点赞

#latent-diffusion

L2P：释放像素生成的潜在潜力

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

L2P 论文提出了一种潜在空间到像素空间（Latent-to-Pixel）的迁移范式，该范式利用预训练的潜在扩散模型（LDM），以极低的训练开销构建高效的像素空间模型，并实现 4K 分辨率生成。

0 人收藏 0 人点赞

#latent-diffusion

扩散友好型潜在流形的关键要素是什么？用于潜在扩散的先验对齐自编码器

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

本文介绍了先验对齐自编码器（PAE），这是一种用于构建扩散友好型潜在流形的新型方法，在实现最先进图像生成质量的同时，使训练收敛速度加快 13 倍。

0 人收藏 0 人点赞

#latent-diffusion

TextLDM：利用连续潜在扩散进行语言建模

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

本文介绍了 TextLDM，这是一种通过将离散标记映射到连续潜在空间，从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明，该方法在表示对齐的增强下，达到了与 GPT-2 相当的性能，并统一了视觉与文本生成的架构。

0 人收藏 0 人点赞

#latent-diffusion

zhen-nan/L2P

Hugging Face Models Trending ↗ · 2026-05-03 缓存

L2P 提出了一种高效的迁移范式，利用预训练的潜在扩散模型构建像素空间扩散模型，从而在极小的计算开销和数据需求下实现高质量生成，并支持原生 4K 分辨率。

0 人收藏 0 人点赞

#latent-diffusion

RuneXX/LTX-2.3-Workflows

Hugging Face Models Trending ↗ · 2026-03-05 缓存

该 Hugging Face 仓库提供了 Lightricks 的 LTX-2.3 视频生成模型的工作流和模型下载，专为与 ComfyUI 配合使用而设计，包括分割模型、GGUF 版本以及所需的自定义节点。

0 人收藏 0 人点赞

latent-diffusion

提交意见反馈