标签
iLLaDA是一个80亿参数的掩码扩散语言模型,具有完全双向注意力机制,从头开始在12万亿token上训练。与LLaDA相比,它在多个方面都有显著改进,并在多个基准测试上与Qwen2.5 7B保持竞争力。模型和代码已开源。
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。
提出一种用于流式ASR标点恢复的非自回归评分方法,该方法保留输入转录,并在有限前瞻预算下优于基于提示和微调的基线。
研究人员提出一种名为“后缀锚定置信度调制”的无训练方法,通过解决EOT标记和过早解码的问题,改进扩散语言模型中基于置信度的解码。
本文介绍了一种扩散语言模型,将文本视为二进制比特流上的连续过程,利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果,同时降低了内存占用。
Meta 的 FAIR 团队发布了 Flowception 的代码,这是 CVPR 2026 的一篇论文,介绍了一种非自回归视频生成框架。该框架通过交错帧插入与连续去噪,减少了误差累积和计算成本。
Cola DLM 是一种分层潜在扩散语言模型,它通过文本到潜空间的映射以及条件解码,实现高效且非自回归的文本生成。
CRoCoDiL提出了一种用于语言的连续且鲁棒的条件扩散方法,将掩码扩散模型转移到连续语义空间中,相比LLaDA等离散方法,生成质量更优,采样速度快10倍。