标签
Meta 的 FAIR 团队发布了 Flowception 的代码,这是 CVPR 2026 的一篇论文,介绍了一种非自回归视频生成框架。该框架通过交错帧插入与连续去噪,减少了误差累积和计算成本。
本文提出了一种利用商用微波链路和扩散模型先验进行雨场重建的贝叶斯反问题框架,展示了其相对于现有基准方法的准确性提升。
本文分析了预训练扩散模型在线性逆问题上的零样本条件采样,提供了信息论保证并提出了一种投影 Langevin 初始化方法。
介绍MidSteer,一个用于生成模型中概念引导的理论框架,通过为LLMs和视觉扩散模型中的概念引导、擦除和切换提供最优仿射变换,弥合了经验成功与理论理解之间的差距。
来自罗维拉-威尔吉利大学的研究人员在《自然-机器智能》上发表论文,介绍了CoCoGraph,这是一种利用约束离散扩散过程生成化学有效的新型分子的AI工具。
一位用户提议使用扩散模型生成或编辑抽象语法树(AST),以确保代码生成的语法正确性,并与当前LLM基于token的限制形成对比。
BACH作为视频生成领域的一项重大突破被引入,实现了前所未有的角色一致性,跨场景时不会出现面部变形或漂移。
本文介绍了 MARBLE,这是一种针对扩散模型进行多奖励强化学习微调的梯度空间优化框架,无需手动权重调整即可实现策略梯度的和谐统一。
本文介绍了连续时间分布匹配(CDM),这是一种用于少步扩散蒸馏的方法,它通过将优化过程从离散迁移到连续,提高了视觉保真度并保留了精细细节。
本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。
PhysForge 是一个两阶段框架,能够生成具备物理基础和运动学参数的交互式 3D 资产,解决了虚拟世界中静态几何模型带来的瓶颈问题。
Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。
ReflectDrive-2 是一款新型自动驾驶离散扩散规划器,通过强化学习实现轨迹 token 的自编辑,在 NAVSIM 基准测试中取得了高性能和低延迟。
Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
本文介绍了 DiGSeg 框架,该框架利用潜在空间条件控制和文本引导对齐,将预训练的扩散模型重新用于实现最先进的语义分割和开放词汇分割。
MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。