标签
Tuna-2 是一个统一的多模态模型,通过直接从像素嵌入处理视觉理解与生成任务,无需预训练视觉编码器,达到了最先进的性能水平。
LLaDA2.0-Uni 在单一扩散式大语言模型架构内统一了多模态理解与生成。