Dystruct:基于贝叶斯推理的动态结构化扩散语言模型解码

Hugging Face Daily Papers 论文

摘要

DyStruct 是一种无需训练的贝叶斯解码框架,专为离散扩散语言模型设计。它通过动态确定扩展规模和解码顺序来实现灵活长度生成,从而提高了数学和代码任务的准确性。

扩散语言模型(DLMs)最近作为一种有前景的自回归模型替代方案脱颖而出,这主要得益于其并行解码能力。尽管具有这一优势,大多数现有的 DLMs 仍然依赖于在解码前指定的固定生成长度,这限制了它们在现实应用中的灵活性。虽然少数近期的研究尝试支持灵活长度生成,但它们通常存在明显的局限性:一些需要昂贵的重新训练来适应变长输出,而另一些则仅依赖于解码过程中的局部置信度信号。这种局部标准未能捕捉序列结构的演变,往往导致生成质量次优。在本文中,我们提出了一种无需训练的贝叶斯结构化解码框架,将灵活长度生成表述为动态结构推理问题。我们的方法将灵活长度生成表述为动态结构推理问题,联合计算扩展长度、块边界和解码计划。在每次窗口扩展步骤中,该方法通过统一的机制将局部不确定性与结构信号相结合,支持动态结构化生成,包括灵活的块扩展和块组织,同时保持连贯性。在多个基准上的广泛实验表明,与现有的固定长度和灵活长度基线相比,我们的方法显著提高了生成质量和灵活性。这些结果突出了贝叶斯结构化解码在扩散语言模型中的优势,为结构化文本生成提供了一种原则性强且高效的解决方案。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:28

Paper page - Dystruct: Dynamically Structured Diffusion Language Model Decoding via Bayesian Inference

Source: https://huggingface.co/papers/2605.09820 DyStruct 是一个无需训练的贝叶斯解码框架,使离散的扩散语言模型(DLMs)能够进行灵活长度的生成。

虽然离散扩散模型在架构上具有并行解码的优势,但它们通常受限于固定的序列长度。现有的可变长度生成方法依赖于严格的从左到右截断启发式方法——这会强制过早确定 token——或者需要昂贵的自定义对齐训练。

DyStruct 将序列扩展 formulation 为一个纯粹的推理时结构问题,利用贝叶斯框架动态确定扩展大小、块分区和解码顺序。该方法以非单调方式执行:通过中餐厅过程(CRP)先验和上下文感知的吉布斯调度,主动搜索并锚定稳定的序列段(例如初始设置和最终答案格式)。这些稳定的锚点随后用于双向约束高度不稳定的中间推理步骤。

通过严格根据结构不稳定性分配去掩码迭代次数,该算法在刚性任务(如算术模板)上自然提前终止以优化计算资源,同时为复杂逻辑保留深度精炼步骤。在 LLaDA-8B 和 Dream-7B 上的评估表明,该方法在数学推理和代码合成方面带来了严格的准确率提升,包括在 Big-Bench Hard 上实现了 +4.4 的精确匹配增长。

相似文章

DALM:一种通过三阶段结构化生成的领域代数语言模型

arXiv cs.CL

DALM提出了一种领域代数语言模型,在由领域格导出的精确结构约束下生成文本,通过将知识组织到具有代数保证的独立领域纤维中来解决幻觉问题。该模型使用三阶段结构化去噪(领域→关系→概念),并使用领域标注的训练数据防止跨领域污染。

DFlash:用于快速投机解码的块扩散

Papers with Code Trending

DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。