标签
本文系统地比较了基于重建和基于语义的潜在空间在机器人行动条件潜在扩散世界模型中的应用。研究发现,像V-JEPA 2.1这样的语义编码器在策略相关指标上通常优于重建编码器,从而主张将语义潜在空间作为机器人世界模型的更强基础。
NVIDIA 推出了 PiD,一种 Pixel Diffusion Decoder,用其替换潜在扩散模型中的传统 VAE/RAE 解码器,实现快速高分辨率解码,速度提升高达 6 倍,并改进了视觉保真度。
NVIDIA Spatial Intelligence Lab 提出 PiD,将 latent 扩散模型的解码环节重新设计为条件像素扩散过程,统一解码与上采样,实现低延迟高分辨率解码。
本文提出AirfoilGen,一种用于翼型形状生成的潜扩散模型,通过圆形扫掠表示确保几何有效性,并能够控制气动性能(升力/阻力系数)。实验表明,使用超过20万个翼型的新数据集,性能条件化准确率达到98.41%。
本文识别了流形假设下扩散模型中的坍缩与精炼机制,提出了分数诱导潜在扩散(SiLD),该方法可证明地避免了维度灾难。实验表明,SiLD在生成质量上匹配或超越基于VAE的潜在扩散模型。
本技术报告研究了面向非自回归文本生成的草稿条件潜在精炼,表明良好的潜在几何并不能保证良好的解码,并强调解码器可恢复性作为关键评估指标。
字节跳动发布Cola-DLM,一种层次化连续潜在空间扩散语言模型,结合了文本VAE和块因果扩散Transformer,在Hugging Face上提供模型权重、代码和论文。
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
L2P 论文提出了一种潜在空间到像素空间(Latent-to-Pixel)的迁移范式,该范式利用预训练的潜在扩散模型(LDM),以极低的训练开销构建高效的像素空间模型,并实现 4K 分辨率生成。
本文介绍了先验对齐自编码器(PAE),这是一种用于构建扩散友好型潜在流形的新型方法,在实现最先进图像生成质量的同时,使训练收敛速度加快 13 倍。
本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。
L2P 提出了一种高效的迁移范式,利用预训练的潜在扩散模型构建像素空间扩散模型,从而在极小的计算开销和数据需求下实现高质量生成,并支持原生 4K 分辨率。
该 Hugging Face 仓库提供了 Lightricks 的 LTX-2.3 视频生成模型的工作流和模型下载,专为与 ComfyUI 配合使用而设计,包括分割模型、GGUF 版本以及所需的自定义节点。