标签
本研究论文提出了一种用于在生成采样中强制执行硬约束的自适应校正调度方法,证明与末端或逐步投影方法相比,该方法能够改善成本-精度边界。
本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。
本文提出了一种公平比较基于扩散模型的异常检测器的协议,并提出了规范特征快照(CFS),该算法利用稀疏的内部激活状态实现高效的异常检测。
本文介绍了轨迹匹配策略优化(TMPO),这是一种扩散模型对齐方法。它通过匹配轨迹级奖励分布而非最大化标量奖励,解决了奖励黑客攻击和视觉模态崩溃问题。
本文介绍了 DiffScore,这是一个基于掩码大型扩散语言模型(Masked Large Diffusion Language Models)的文本评估框架,通过利用掩码重建来解决自回归评分中的位置偏差问题。
本文介绍了 BitLM,一种利用位级连续扩散并行生成多个 Token 的语言模型,旨在克服传统自回归生成的顺序瓶颈,同时保留因果结构。
本文介绍了潜在空间优化可视化(LVO),这是一种机械可解释性技术,利用稀疏自编码器来可视化 Stable Diffusion 1.5 等扩散模型中的单义特征。
本文介绍了 DOSER,这是一种利用扩散模型进行分布外(OOD)检测和选择性正则化的框架,旨在离线强化学习中通过区分有益和有害的 OOD 动作来提升在静态数据集上的表现。
本文介绍了 NoiseRater,这是一种元学习框架,在扩散模型训练期间为各个噪声样本分配重要性评分,以提高训练效率和生成质量。
本文介绍了 WildRelight,这是一个针对单图像重光照的实世界基准数据集,旨在弥合合成场景与自然场景之间的差距。该研究提出了一种物理引导的自适应框架,利用扩散后验采样和测试时自适应来提升模型在实世界数据上的表现。
MoCam 是一篇研究论文,介绍了一种基于扩散的统一新视角合成框架,该框架通过动态协调几何和外观先验,提高了对几何误差的鲁棒性。
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
本文介绍了 Christoffel-DPS,这是一个用于扩散后验采样中最优传感器放置的无分布依赖框架,其性能优于传统的基于高斯假设的方法。它为使用生成式模型从复杂非高斯分布中重建状态提供了理论保证和实际改进。
本研究论文探讨了表格扩散模型中的隐私泄露问题,量化了训练设置、合成选择以及攻击者知识对隐私风险的影响。研究发现,即使在没有完美知识或庞大资源的情况下,攻击者仍能成功实施攻击,并揭示了启发式隐私评估指标的潜在缺陷。
本文提供了理论分析,解释了为什么在扩散模型中,确定性的 DDIM 采样器比随机性的 DDPM 采样器产生更多的幻觉,将其归因于在逆向动力学过程中卡在模态插值区域。
本预印本提出了一个统一的测度论框架,用于理解扩散、基于分数和流匹配生成模型。它通过连续性/福克-普朗克方程建立了这些方法之间的联系,并分析了它们的采样方案及其理论保证。
本文介绍了一种扩散语言模型,将文本视为二进制比特流上的连续过程,利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果,同时降低了内存占用。
Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。
作者介绍了 'Bracket',这是一个开源工具,通过并行训练试验和基于 VLM 的评分,自动搜索扩散模型微调的最佳超参数配置。