标签
本文介绍了 MIND(Monge 初始距离),这是一种用于评估生成模型的新指标,比标准的 Fréchet 初始距离(FID)具有更高的样本效率、更快的速度以及更强的鲁棒性。
本文介绍了 GCCM,一种图对比一致性模型。该模型通过引入负样本对和特征扰动,缓解了一致性训练中的捷径问题,从而提升了生成图预测的效果。
本文提出了一种基于能量的生成模型的统一框架,将密度输运表述为以KL散度为Lyapunov函数的非线性控制问题。它推导了有限步停止准则,并展示了非线性控制理论工具如何应用于静态标量能量模型。
介绍MidSteer,一个用于生成模型中概念引导的理论框架,通过为LLMs和视觉扩散模型中的概念引导、擦除和切换提供最优仿射变换,弥合了经验成功与理论理解之间的差距。
本文介绍生成式量子启发柯尔莫哥洛夫-阿诺德本征求解器(GQKAE),一种参数高效架构,用柯尔莫哥洛夫-阿诺德模块替代传统神经网络组件,显著降低内存使用并改善量子化学模拟中的收敛性。
为面试准备的精选AI基础论文清单,涵盖Transformer、高效微调、视觉模型与生成网络。
@sedielem 在 YouTube 上的演讲,精炼地回顾了生成式图像与视频模型在规模化时的最新进展,涵盖建模、架构、蒸馏与控制。
本文识别并解决了文本到三维生成模型中的“潜在汇陷阱”问题,即模型对文本提示变得不敏感。我们提出了一个框架,将几何表示与语言敏感性解耦,从而实现对分布外形状的稳健文本驱动三维形状编辑。
LangFlow提出了首个可与离散扩散方法相媲美的连续扩散语言模型,挑战了长期以来认为连续扩散在语言建模中劣于离散扩散的观点。该工作引入了基于最优Gumbel噪声调度等关键要素,并展示了与离散扩散基线相比具有竞争力的困惑度和迁移学习性能。
本文提出一种HDR视频生成方法,通过对数编码对齐和模拟相机退化的训练策略,利用预训练生成模型实现高效的HDR合成,无需重新设计模型架构。该方法表明,只需将现有模型适配到与其先验知识自然对齐的表示上,即可实现HDR生成。
OpenAI 展示了改进的一致性模型训练技术,无需蒸馏即可实现高质量单步图像生成,通过新型损失函数和训练策略在 CIFAR-10 和 ImageNet 64×64 上取得显著的 FID 改进。
OpenAI 推出一致性模型,这是一类新的生成模型,通过直接将噪声映射到数据,支持快速单步图像生成,同时支持多步采样和零次学习编辑任务(如图像修复和超分辨率)。该方法在 CIFAR-10 和 ImageNet 64x64 上的单步生成中实现了最先进的 FID 分数。
OpenAI的技术报告介绍了Sora视频生成模型,该模型通过视觉补丁统一多样化的视觉数据,支持大规模训练生成模型,能够生成长达一分钟的高清视频,支持可变的时长、宽高比和分辨率。
FFJORD 引入了一种可扩展的可逆生成模型,使用连续动力学和 Hutchinson 迹估计器实现无偏对数密度估计,无需架构约束。该方法在密度估计和图像生成方面达到了最先进的结果,同时保持高效的采样。
OpenAI 推出 Glow,一种改进的可逆生成模型,通过用可学习的 1x1 卷积替换固定置换简化了 RealNVP 架构,实现更好的信息流和显著的性能提升。
OT-GAN 提出了一种新颖的 GAN 变体,在对抗学习的特征空间中结合最优传输和能量距离,以提高训练稳定性和图像生成质量。该方法在基准问题上展示了最先进的结果,使用大批量数据实现了稳定的训练。
# 域随机化与生成模型在机器人抓取中的应用 来源:[https://openai.com/index/domain-randomization-and-generative-models-for-robotic-grasping/](https://openai.com/index/domain-randomization-and-generative-models-for-robotic-grasping/) ## 摘要 基于深度学习的机器人抓取在算法改进和数据可用性增加的推动下取得了重大进展。然而,最先进的模型往往仅在数百或数千个未
OpenAI 推出了一种使用深度生成模型在时间段上学习复杂非线性系统动力学的方法,能够实现稳定的长期预测和可微分的轨迹优化以进行基于模型的控制。
PixelCNN++ 对 PixelCNN 进行了多项架构改进,包括离散化逻辑混合似然函数、下采样和快捷连接,在 CIFAR-10 上取得了最先进的对数似然结果。
本文提出使用退火重要性采样(Annealed Importance Sampling)来评估基于解码器的生成模型(VAE、GAN等)的对数似然,解决了难以计算似然估计的问题。作者验证了该方法的有效性,并提供了评估代码来分析模型性能、过拟合情况和模式覆盖度。