标签
Jordi Pons宣布推出Stable Audio 3,这是一个开源权重模型系列,用于生成器乐和音效,支持对授权音频进行快速生成和编辑。
提出TAP,一种表格数据增强策略,将扩散修复与学习者条件策略相结合,以在数据稀缺条件下提升下游模型性能,在真实数据集上优于强基线模型。
本文分析了预训练扩散模型在线性逆问题上的零样本条件采样,提供了信息论保证并提出了一种投影 Langevin 初始化方法。
Netflix 发布了 VOID,一种视频修复模型,能够从视频中移除物体,同时逼真地模拟物理交互(例如,当移除一个人时,物体会掉落)。该模型基于 CogVideoX 构建,并通过交互感知的四元掩码条件进行微调。