LLaDA2.0-Uni:用扩散大语言模型统一多模态理解与生成
摘要
LLaDA2.0-Uni 在单一扩散式大语言模型架构内统一了多模态理解与生成。
查看缓存全文
缓存时间: 2026/04/23 03:35
论文页面 - LLaDA2.0-Uni:用扩散大语言模型统一多模态理解与生成
来源:https://huggingface.co/papers/2604.20796
发布时间:4 月 22 日
#今日第一论文(https://huggingface.co/papers/date/2026-04-23)
作者:,,,,,,,,,,,,,,,
摘要
查看 arXiv 页面(https://arxiv.org/abs/2604.20796)
查看 PDF(https://arxiv.org/pdf/2604.20796)
GitHub3(https://github.com/inclusionAI/LLaDA2.0-Uni)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.20796)
引用本文的模型 1
inclusionAI/LLaDA2.0-Uni 图像-文本到文本• 16B• 17 分钟前更新 • 8(https://huggingface.co/inclusionAI/LLaDA2.0-Uni)
引用本文的数据集 0
暂无数据集关联本文
在数据集 README.md 中引用 arxiv.org/abs/2604.20796 即可在此页面显示链接。
引用本文的 Spaces 0
暂无 Space 关联本文
在 Space README.md 中引用 arxiv.org/abs/2604.20796 即可在此页面显示链接。
收录本文的合集 1
相似文章
改进的大型语言扩散模型
iLLaDA是一个80亿参数的掩码扩散语言模型,具有完全双向注意力机制,从头开始在12万亿token上训练。与LLaDA相比,它在多个方面都有显著改进,并在多个基准测试上与Qwen2.5 7B保持竞争力。模型和代码已开源。
UniDDT: 通过解耦扩散变换器统一多模态理解与生成
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
TextLDM:利用连续潜在扩散进行语言建模
本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。
CRoCoDiL: 用于语言的连续且鲁棒的条件扩散
CRoCoDiL提出了一种用于语言的连续且鲁棒的条件扩散方法,将掩码扩散模型转移到连续语义空间中,相比LLaDA等离散方法,生成质量更优,采样速度快10倍。