Dystruct:基于贝叶斯推理的动态结构化扩散语言模型解码
摘要
DyStruct 是一种无需训练的贝叶斯解码框架,专为离散扩散语言模型设计。它通过动态确定扩展规模和解码顺序来实现灵活长度生成,从而提高了数学和代码任务的准确性。
查看缓存全文
缓存时间: 2026/05/12 07:28
Paper page - Dystruct: Dynamically Structured Diffusion Language Model Decoding via Bayesian Inference
Source: https://huggingface.co/papers/2605.09820 DyStruct 是一个无需训练的贝叶斯解码框架,使离散的扩散语言模型(DLMs)能够进行灵活长度的生成。
虽然离散扩散模型在架构上具有并行解码的优势,但它们通常受限于固定的序列长度。现有的可变长度生成方法依赖于严格的从左到右截断启发式方法——这会强制过早确定 token——或者需要昂贵的自定义对齐训练。
DyStruct 将序列扩展 formulation 为一个纯粹的推理时结构问题,利用贝叶斯框架动态确定扩展大小、块分区和解码顺序。该方法以非单调方式执行:通过中餐厅过程(CRP)先验和上下文感知的吉布斯调度,主动搜索并锚定稳定的序列段(例如初始设置和最终答案格式)。这些稳定的锚点随后用于双向约束高度不稳定的中间推理步骤。
通过严格根据结构不稳定性分配去掩码迭代次数,该算法在刚性任务(如算术模板)上自然提前终止以优化计算资源,同时为复杂逻辑保留深度精炼步骤。在 LLaDA-8B 和 Dream-7B 上的评估表明,该方法在数学推理和代码合成方面带来了严格的准确率提升,包括在 Big-Bench Hard 上实现了 +4.4 的精确匹配增长。
相似文章
扩散语言模型的动态分块
本文介绍了扩散语言模型的动态分块(DCDM),该方法使用可微分的Chunking Attention机制,用内容定义的语义块替换块离散扩散中的固定位置块,在高达1.5B参数规模上实现了一致的改进。
基于推测解码的无分解错误离散扩散语言模型
本文提出了FeF-DLLM,一种通过精确前缀条件分解消除分解错误、并利用推测解码加速推理的离散扩散语言模型,在GSM8K和MATH等基准测试中显著提升了准确率和速度。
Dynamic-dLLM:动态缓存预算与自适应并行解码,实现扩散大语言模型的无训练加速
本文提出 Dynamic-dLLM,一种无训练框架,通过动态分配缓存更新预算和校准解码阈值来加速扩散大语言模型,在 LLaDA 和 Dream 等模型上实现超过 3 倍的加速,同时保持性能。
扩散大语言模型中面向格式约束生成的动态填充锚点
本文提出了动态填充锚点(DIA),一种适用于扩散大语言模型的免训练方法。该方法通过动态估计终止锚点位置来强制执行格式约束(如可解析的 JSON、推理模板),同时避免了固定跨度方法的僵硬性。实验表明,DIA 在 GSM8K 和 MATH 基准测试上取得了显著的零样本性能提升。
Speculative Refinement: 一种混合自回归扩散解码策略及其在不同基准测试中的行为表现
介绍了 Speculative Refinement (SpecRef),一种无需训练的混合解码策略,它通过熵引导的选择性掩码,从自回归草稿中热启动掩码扩散语言模型。在六个基准测试上的评估表明,代码基准测试混淆了结构发现与逻辑正确性,识别出了一种精炼张力现象,并显示评估协议可能产生不同的模型排名。