Dystruct:基于贝叶斯推理的动态结构化扩散语言模型解码
摘要
DyStruct 是一种无需训练的贝叶斯解码框架,专为离散扩散语言模型设计。它通过动态确定扩展规模和解码顺序来实现灵活长度生成,从而提高了数学和代码任务的准确性。
查看缓存全文
缓存时间: 2026/05/12 07:28
Paper page - Dystruct: Dynamically Structured Diffusion Language Model Decoding via Bayesian Inference
Source: https://huggingface.co/papers/2605.09820 DyStruct 是一个无需训练的贝叶斯解码框架,使离散的扩散语言模型(DLMs)能够进行灵活长度的生成。
虽然离散扩散模型在架构上具有并行解码的优势,但它们通常受限于固定的序列长度。现有的可变长度生成方法依赖于严格的从左到右截断启发式方法——这会强制过早确定 token——或者需要昂贵的自定义对齐训练。
DyStruct 将序列扩展 formulation 为一个纯粹的推理时结构问题,利用贝叶斯框架动态确定扩展大小、块分区和解码顺序。该方法以非单调方式执行:通过中餐厅过程(CRP)先验和上下文感知的吉布斯调度,主动搜索并锚定稳定的序列段(例如初始设置和最终答案格式)。这些稳定的锚点随后用于双向约束高度不稳定的中间推理步骤。
通过严格根据结构不稳定性分配去掩码迭代次数,该算法在刚性任务(如算术模板)上自然提前终止以优化计算资源,同时为复杂逻辑保留深度精炼步骤。在 LLaDA-8B 和 Dream-7B 上的评估表明,该方法在数学推理和代码合成方面带来了严格的准确率提升,包括在 Big-Bench Hard 上实现了 +4.4 的精确匹配增长。
相似文章
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
DALM:一种通过三阶段结构化生成的领域代数语言模型
DALM提出了一种领域代数语言模型,在由领域格导出的精确结构约束下生成文本,通过将知识组织到具有代数保证的独立领域纤维中来解决幻觉问题。该模型使用三阶段结构化去噪(领域→关系→概念),并使用领域标注的训练数据防止跨领域污染。
自己从零写扩散语言模型比我想的简单多了[P]
开发者分享了一个极简的750万参数扩散语言模型,用莎士比亚文本从头训练,并开源代码供学习。
DFlash:用于快速投机解码的块扩散
DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。
不破坏的引导:基于机制的离散扩散语言模型干预
本文介绍了一种新颖的自适应调度器,用于利用稀疏自编码器引导离散扩散语言模型,结果表明,基于特定属性提交时机进行针对性干预,比均匀方法能提升控制质量和强度。