LLaDA2.0-Uni:用扩散大语言模型统一多模态理解与生成

Hugging Face Daily Papers 论文

摘要

LLaDA2.0-Uni 在单一扩散式大语言模型架构内统一了多模态理解与生成。

我们推出 LLaDA2.0-Uni,一种统一的离散扩散大语言模型(dLLM),可在原生集成框架中同时完成多模态理解与生成。其架构由完全语义化的离散分词器、基于 MoE 的 dLLM 骨干网络与扩散解码器组成。通过 SigLIP-VQ 将连续视觉输入离散化,模型在骨干网络内对文本与视觉输入实现块级掩码扩散,而解码器再将视觉 token 重建为高保真图像。借助骨干网络的前缀感知优化与解码器的少步蒸馏,推理效率在并行解码基础上进一步提升。依托精心筛选的大规模数据与量身定制的多阶段训练流程,LLaDA2.0-Uni 在多模态理解上媲美专用 VLM,同时在图像生成与编辑任务中表现强劲。其对交错生成与推理的原生支持,为下一代统一基础模型树立了可扩展的新范式。代码与模型已开源:https://github.com/inclusionAI/LLaDA2.0-Uni
查看原文
查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - LLaDA2.0-Uni:用扩散大语言模型统一多模态理解与生成

来源:https://huggingface.co/papers/2604.20796
发布时间:4 月 22 日

#今日第一论文(https://huggingface.co/papers/date/2026-04-23)
作者:,,,,,,,,,,,,,,,

摘要

查看 arXiv 页面(https://arxiv.org/abs/2604.20796)
查看 PDF(https://arxiv.org/pdf/2604.20796)
GitHub3(https://github.com/inclusionAI/LLaDA2.0-Uni)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.20796)

引用本文的模型 1

inclusionAI/LLaDA2.0-Uni 图像-文本到文本• 16B• 17 分钟前更新 • 8(https://huggingface.co/inclusionAI/LLaDA2.0-Uni)

引用本文的数据集 0

暂无数据集关联本文

在数据集 README.md 中引用 arxiv.org/abs/2604.20796 即可在此页面显示链接。

引用本文的 Spaces 0

暂无 Space 关联本文

在 Space README.md 中引用 arxiv.org/abs/2604.20796 即可在此页面显示链接。

收录本文的合集 1

相似文章

改进的大型语言扩散模型

arXiv cs.CL

iLLaDA是一个80亿参数的掩码扩散语言模型,具有完全双向注意力机制,从头开始在12万亿token上训练。与LLaDA相比,它在多个方面都有显著改进,并在多个基准测试上与Qwen2.5 7B保持竞争力。模型和代码已开源。

TextLDM:利用连续潜在扩散进行语言建模

Hugging Face Daily Papers

本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。