标签
iLLaDA是一个80亿参数的掩码扩散语言模型,具有完全双向注意力机制,从头开始在12万亿token上训练。与LLaDA相比,它在多个方面都有显著改进,并在多个基准测试上与Qwen2.5 7B保持竞争力。模型和代码已开源。
本文研究了top-1崩溃率作为短视界LoRA微调离散扩散语言模型的稳定性监控器的有效性,发现其精度为零,并提出最大梯度范数作为更可靠的替代方案,在LLaDA系列模型上具有更高的精度和F1分数。
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。
提出了自生成T2T(Self-Generated T2T)训练方法,该方法通过使用模型自身的预测作为错误源,使Token编辑训练与推理对齐,从而提高了LLaDA2.1的准确性。
PerceptionDLM 提出了一种多模态扩散语言模型,通过结构化注意力掩码和高效提示实现并行区域感知,在不牺牲字幕质量的情况下实现更快的推理。实验表明,在多区域感知任务中,性能具有竞争力且速度大幅提升。
本文从偏差-方差角度对扩散语言模型进行了理论分析,识别了掩码扩散与均匀扩散核之间的权衡。提出了SemDLM+,通过添加全局转移和语义频率惩罚来克服语义盆地问题,在LM1B和OpenWebText基准上实现了有竞争力的生成质量。
本文提出了三种训练时干预方法(位置加权、首次错误焦点损失和链损失),用于在推测解码中将基于扩散的草稿模型与自回归验证对齐,使接受前缀长度提升21-76%,且不增加推理开销。
本文提出Prefilling-dLLM,一种无需训练的框架,它将前缀分割成块并缓存KV表示,在扩散语言模型的长上下文推理中实现了最先进的质量和高达28倍的加速。
本文提出BiCache,一种面向扩散语言模型共享前缀的新型KV缓存技术,通过动态重用浅层中缓存的键和值来避免精度崩溃,并实现36.3%–98.3%的吞吐量提升。
本文提出了动态填充锚点(DIA),一种适用于扩散大语言模型的免训练方法。该方法通过动态估计终止锚点位置来强制执行格式约束(如可解析的 JSON、推理模板),同时避免了固定跨度方法的僵硬性。实验表明,DIA 在 GSM8K 和 MATH 基准测试上取得了显著的零样本性能提升。
本文介绍了 CAPR(缓存摊销路径精化),一种用于扩散大语言模型的强化学习算法。该算法无需完整树展开的计算开销,即可从去噪轨迹中提取类树状监督信号。CAPR 在 GSM8K、Math500、数独和倒计时等推理基准测试上达到了最先进的性能,计算成本仅为平坦展开方式的约 0.75 倍。
本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。
本文介绍了EPIC,一个用于扩散语言模型中上下文无关文法约束解码的高效框架,在保持语法正确性的同时,将推理时间最多减少67.5%。
介绍了DLLM-JEPA,这是一种针对掩码扩散语言模型的JEPA公式,通过扩散噪声调度从单个输入构建两个视图,相比LLM-JEPA减少了33%的训练FLOPs,并在GSM8K等任务上提升了微调性能。
dMoE 提出了用于扩散大语言模型的块级专家路由,将唯一激活的专家数量从 69.5 降至 14.6,同时保留了 99.11% 的性能,并实现了 76-80% 的内存减少和 1.14-1.66 倍的加速。
GDSD提出了一种强化学习方法,直接从优势引导的自教师中蒸馏扩散语言模型的降噪器,避免了基于ELBO的似然代理带来的偏差。在规划、数学和编码基准上,比先前最先进的方法准确率提升高达+19.6%。
研究人员提出一种名为“后缀锚定置信度调制”的无训练方法,通过解决EOT标记和过早解码的问题,改进扩散语言模型中基于置信度的解码。
dlmserve 是首个面向扩散语言模型的开源服务引擎,提供兼容 OpenAI 的 API、持续批处理功能,在 12GB VRAM 内即可运行,吞吐量是 Hugging Face 的 2.5 倍。
本文介绍了TraceLock,这是一种轻量级即插即用控制器,为冻结的扩散语言模型学习令牌提交策略,无需重新训练即可在各种任务中改善质量与步数之间的权衡。
本文介绍了infilling extraction(填充提取)方法,这是一种通过使用任意二进制掩码从扩散语言模型中提取训练数据的新方法,表明此类模型比之前认为的更容易受到记忆化攻击。