标签
介绍了DLLM-JEPA,这是一种针对掩码扩散语言模型的JEPA公式,通过扩散噪声调度从单个输入构建两个视图,相比LLM-JEPA减少了33%的训练FLOPs,并在GSM8K等任务上提升了微调性能。
本文识别了掩码扩散语言模型中的一种失效模式:基于置信度的解码在复杂推理任务中导致高置信度错误,并表明置信对齐训练会加剧此问题,而随机掩码则能保持推理性能。
本文提出将 Masked Diffusion Language Models (MDLMs) 作为基于文本的世界模型用于智能体强化学习,表明其任意顺序去噪目标避免了前缀模式崩溃,并且相比自回归基线模型带来了更强的性能。
AnchorDiff提出了一种拓扑感知的掩码扩散框架用于放射学报告生成,整合了基于RadGraph的临床锚点和基于置信度的重写,在MIMIC-CXR和MIMIC-RG4基准测试上取得了最先进的结果。
提出离散随机定位(Discrete Stochastic Localization, DSL),一种用于非自回归文本生成的连续状态扩散框架,采用单位球面令牌嵌入和时步不变的降噪器,在OpenWebText上实现了比掩码离散扩散模型更好的分布忠实性。
提出 Token-to-Mask(T2M)重掩码,在掩码扩散 LM 中通过将可疑 token 重置为掩码状态而非直接覆盖来修正生成错误,在 CMATH 上最高提升 5.92 准确率,无需额外训练或参数。
CRoCoDiL提出了一种用于语言的连续且鲁棒的条件扩散方法,将掩码扩散模型转移到连续语义空间中,相比LLaDA等离散方法,生成质量更优,采样速度快10倍。