标签
本文介绍了一种原子语言模型,它集成了3D原子编码器、Qwen大语言模型和扩散晶体生成器,原生处理多模态材料数据,实现了最先进的晶体结构预测和从头生成。
本文介绍了DigenRL,一个用于基于扩散的生成式LLMs的解耦RL框架,它利用生成轴流水线并行和训练器辅助生成,相比现有系统实现了1.56-2.10倍的吞吐量提升。
本文介绍了近似结构化扩散(Approximate Structured Diffusion),一种将条件随机场(CRF)与离散扩散相结合用于序列标注的方法。它使用以噪声标签序列为条件的CRF和近似平均场推理,在词性标注上实现了16.5%的错误率降低。
JanusMesh 是一个快速、免训练的框架,通过将生成过程解耦为跨空间双分支去噪和视图条件纹理合成,生成文本驱动的3D视觉错觉——单个网格从不同视角展示不同语义——在仅3-5分钟内实现高真实感。
MiniT2I 是一个极简的直接RGB文本到图像生成器,使用像素空间MM-JiT去噪器,结合流匹配和冻结的FLAN-T5-Large文本令牌,并开源了JAX/Flax和PyTorch实现以及检查点。
Moebius是一个0.22B参数的图像修复框架,媲美FLUX.1-Fill-Dev等10B级别模型,通过新颖的局部-全局交互模块和自适应蒸馏策略,实现超过15倍的推理加速。
RepFusion提出了一种方法,在扩散Transformer中将预训练多模态LLM用作噪声表示编码器,用于文本到图像生成,在相似计算量下超越基线。
作者发起了一个每周视频模型期刊俱乐部,涵盖视频生成、世界模型、物理推理、扩散模型、流匹配等。首次线下讲座将由 Yilun Du 主讲,主题为“基于世界模型的具身推理”。
本文介绍SP³,一种使用球面编码器先验的即插即用图像恢复方法,在各项任务中实现与零样本扩散先验相当的感知质量,同时速度快3-630倍。
MoVerse 通过创建360°全景图和3D高斯脚手架,从单张图像生成实时交互式视频,利用基于扩散的技术实现高效渲染。
VideoMDM利用扩散框架,通过2D重投影损失和3D运动正则化器,从2D姿态中训练3D人体运动先验,在无需3D真实数据的情况下实现了接近3D监督的性能。
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型,通过扩散模型以256个token的块进行文本生成,每秒可处理超过1000个token,经量化后可在18GB显存内运行,已根据 Apache 2.0 许可发布。
新论文展示了如何通过用单位矩阵近似流去噪过程的雅可比矩阵来优化用于强化学习的流匹配行动者,使训练变得可行。
Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。
SwiftVR 是一个实时的一步生成式视频修复框架,利用高效注意力机制和轻量级修复感知自编码器,在消费级 GPU 上实现了高帧率。
MaskAlign提出了一种Token子集表征对齐方法,通过减少对完整Token集的依赖,并在扰动下保持稳定对齐,从而改进扩散Transformer训练。
介绍了SelfBootTok,一种自引导标记化方法,它将全局和局部信息分离,使生成器计算量减少约40%,仅用64个标记即实现了1.56的gFID新最先进水平。
本文介绍了Eisbach对数障碍,这是一个从DiT输出空间能量分布的熵中导出的无参数权重,将其应用于Stable Audio 3的LoRA微调时,能够提升音乐多样性与主题发展,而不会导致模式坍缩。