LLaDA2.0-Uni：用扩散大语言模型统一多模态理解与生成

Hugging Face Daily Papers 2026/04/22 00:00 论文

摘要

LLaDA2.0-Uni 在单一扩散式大语言模型架构内统一了多模态理解与生成。

我们推出 LLaDA2.0-Uni，一种统一的离散扩散大语言模型（dLLM），可在原生集成框架中同时完成多模态理解与生成。其架构由完全语义化的离散分词器、基于 MoE 的 dLLM 骨干网络与扩散解码器组成。通过 SigLIP-VQ 将连续视觉输入离散化，模型在骨干网络内对文本与视觉输入实现块级掩码扩散，而解码器再将视觉 token 重建为高保真图像。借助骨干网络的前缀感知优化与解码器的少步蒸馏，推理效率在并行解码基础上进一步提升。依托精心筛选的大规模数据与量身定制的多阶段训练流程，LLaDA2.0-Uni 在多模态理解上媲美专用 VLM，同时在图像生成与编辑任务中表现强劲。其对交错生成与推理的原生支持，为下一代统一基础模型树立了可扩展的新范式。代码与模型已开源：https://github.com/inclusionAI/LLaDA2.0-Uni

查看原文

查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - LLaDA2.0-Uni：用扩散大语言模型统一多模态理解与生成

来源：https://huggingface.co/papers/2604.20796
发布时间：4 月 22 日

#今日第一论文（https://huggingface.co/papers/date/2026-04-23）
作者：,,,,,,,,,,,,,,,

摘要

查看 arXiv 页面（https://arxiv.org/abs/2604.20796）
查看 PDF（https://arxiv.org/pdf/2604.20796）
GitHub3（https://github.com/inclusionAI/LLaDA2.0-Uni）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.20796）

引用本文的模型 1

inclusionAI/LLaDA2.0-Uni 图像-文本到文本• 16B• 17 分钟前更新 • 8（https://huggingface.co/inclusionAI/LLaDA2.0-Uni）

引用本文的数据集 0

暂无数据集关联本文

在数据集 README.md 中引用 arxiv.org/abs/2604.20796 即可在此页面显示链接。

引用本文的 Spaces 0

暂无 Space 关联本文

在 Space README.md 中引用 arxiv.org/abs/2604.20796 即可在此页面显示链接。

LLaDA2.0-Uni：用扩散大语言模型统一多模态理解与生成

论文页面 - LLaDA2.0-Uni：用扩散大语言模型统一多模态理解与生成

摘要

引用本文的模型 1

inclusionAI/LLaDA2.0-Uni 图像-文本到文本• 16B• 17 分钟前更新 • 8（https://huggingface.co/inclusionAI/LLaDA2.0-Uni）

引用本文的数据集 0

引用本文的 Spaces 0

收录本文的合集 1

相似文章

改进的大型语言扩散模型

UniDDT: 通过解耦扩散变换器统一多模态理解与生成

$R^2$-dLLM：通过时空冗余削减加速扩散大语言模型

TextLDM：利用连续潜在扩散进行语言建模

CRoCoDiL: 用于语言的连续且鲁棒的条件扩散

提交意见反馈