扩散语言模型:实验分析

arXiv cs.AI 论文

摘要

一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。

arXiv:2606.19475v1 公告类型:新 摘要:大型语言模型(LLMs)通过自回归生成彻底改变了语言建模,使其在广泛任务中表现出色。最近,扩散语言模型(DLMs)作为一种替代范式出现,它通过迭代去噪而非逐词预测来生成文本,从而允许对整个序列进行并行优化。尽管已提出多种基于扩散的架构,但评估协议、数据集、推理预算和生成超参数的差异使得难以比较它们的能力并理解其提供的权衡。在这项工作中,我们对现代DLMs进行了系统性的实验分析。具体而言,我们评估了八种最先进的DLMs在涵盖推理、编程、翻译、知识和结构化问题解决的八个基准测试上的表现,同时明确考虑了生成质量和计算效率。除了下游评估,我们还分析了关键推理时因素的影响,包括去噪步数、上下文长度、块大小和并行去掩码策略,并通过在相同条件下训练较小模型进行控制比较,补充了大规模实验。我们的分析突出了不同任务、架构和推理预算下基于扩散的语言建模的优势和局限性。我们表明,DLMs的行为受到生成时设计选择的强烈影响,导致性能与计算效率之间存在不同的权衡。总体而言,我们的研究为当代DLMs的能力和部署特性提供了实用见解。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:30

# 扩散语言模型:一项实验分析
来源:https://arxiv.org/html/2606.19475
\\copyrightclause

本文版权归作者所有。遵循知识共享署名4.0国际许可协议(CC BY 4.0)进行使用。

\\conference

第十二届意大利计算语言学会议(CLiC-it 2026),2026年9月14–16日,意大利巴勒莫

\[orcid=0009\-0005\-3638\-7862, email=282884@studenti\.unimore\.it, \]\\cormark\[1\]

\[orcid=0009\-0002\-9652\-8311, email=davide\.bucciarelli@unimore\.it, \]

\[orcid=0009\-0003\-9439\-9867, email=leonardo\.zini@unimore\.it, \] \[orcid=0000\-0001\-9640\-9385, email=marcella\.cornia@unimore\.it, \]

\[orcid=0000\-0001\-5125\-4957, email=lorenzo\.baraldi@unimore\.it, \]

\\cortext

\[1\]通讯作者。

Davide BucciarelliLeonardo ZiniMarcella CorniaLorenzo Baraldi

(2026)

###### 摘要

大型语言模型(LLMs)通过自回归生成彻底改变了语言建模领域,在大量任务中展现出强大性能。近年来,扩散语言模型(DLMs)作为一种替代范式出现,它通过迭代去噪而非预测下一个词元来生成文本,从而实现对完整序列的并行精炼。尽管已有大量基于扩散的架构被提出,但评估协议、数据集、推理预算和生成超参数的差异使得难以比较它们的能力并理解其所提供的权衡。在这项工作中,我们对现代DLMs进行了系统的实验分析。具体来说,我们在涵盖推理、编码、翻译、知识和结构化问题求解的八个基准上评估了八种最先进的DLMs,同时明确考虑了生成质量和计算效率。除了下游评估,我们还分析了关键推理时因素的影响,包括去噪步数、上下文长度、块大小和并行去掩码策略,并通过在相同条件下训练的较小模型的受控比较来补充大规模实验。我们的分析突显了扩散语言建模在不同任务、架构和推理预算下的优势与局限。我们表明,DLMs的行为受到生成时设计选择的强烈影响,导致性能与计算效率之间存在不同的权衡。总体而言,我们的研究为当代DLMs的能力和部署特性提供了实用见解。

###### 关键词:

扩散语言模型;实验分析;大型语言模型;扩散模型;非自回归模型

## 1 引言

大型语言模型(LLMs)主要基于自回归生成[grattafiori2024llama,yang2025qwen3,radford2019language,team2024gemma],即文本逐个词元顺序生成。虽然这种方法非常有效,但这种范式在推理时施加了严格的自左向右依赖性,限制了并行生成和全局精炼生成内容的机会。这些局限性促使人们探索能够利用并行性和解码过程中迭代精炼的替代生成范式[leviathan2023fast,chen2023accelerating]。

扩散语言模型(DLMs)最近已成为一种有前途的替代方案[arriola2025block,arriola2026encoder,sahoo2024simple,sahoo2025diffusion,ye2025dream,zhu2025llada,nie2026large]。DLMs并非逐个词元生成文本,而是将生成过程形式化为一个迭代去噪过程,逐步将损坏的序列转化为连贯的文本。受扩散模型在图像、视频和音频生成等领域成功的启发[dhariwal2021diffusion,rombach2022high,esser2024scaling,kong2020diffwave],越来越多的研究工作将扩散技术适应于语言,首先通过连续潜在表示,最近则通过离散的词元级公式。这些方法提供了若干吸引人的特性,包括双向上下文建模、并行词元精炼,以及自然支持诸如文本填充、编辑和全局约束推理等任务的能力。

扩散语言建模的快速发展催生了一个多样化的架构生态系统。最近的提案涵盖了完全离散的扩散模型、混合编码器-解码器公式,以及将自回归条件化与局部扩散精炼相结合的块扩散方法。虽然这些模型已展现出越来越有竞争力的性能,但它们的评估仍然高度碎片化。单个工作通常在不同的基准上进行评估,使用不同的生成预算、采样调度、上下文长度和推理配置。因此,很难跨论文比较结果,并且仍不清楚报告的性能提升是源于架构改进还是评估协议的差异。此外,基于扩散的语言生成的一个决定性特征是质量与计算成本之间的明确权衡。与生成过程基本固定的自回归模型不同,扩散模型暴露了多个推理时参数(例如,去噪步数、序列长度、块大小和去掩码调度),这些直接影响性能和效率。尽管这些因素很重要,但其影响尚未在现代扩散架构中得到系统的刻画。

为填补这一空白,我们提出了一项对最先进DLMs的全面实验分析。我们在统一协议下评估了代表性的纯扩散和块扩散架构,并将其与强大的自回归基线进行比较。我们的研究考察了在通用知识[gema2025we,hendrycks2020measuring]、推理[cobbe2021training,ye2025beyond,zellers2019hellaswag]、编码[chen2021evaluating,austin2021program]和机器翻译[bojar2016findings]基准上的性能,同时明确分析质量与计算效率之间的权衡。除了下游评估,我们还进行了受控的规模实验,以量化去噪调度、序列长度、块大小和并行去掩码策略对模型行为的影响。我们还研究了这些架构的实际计算需求,提供了不同生成设置下内存消耗和推理成本的见解。

我们的贡献可以概括如下:(i)我们提供了一项统一的评估,涵盖现代DLMs在多样化下游基准上的表现,使得竞争架构范式之间的直接比较成为可能;(ii)我们系统地分析了关键扩散超参数(包括去噪步数、上下文长度、块大小和去掩码比率)所引发的质量-效率权衡;(iii)我们用受控的小规模实验补充大规模下游评估,使我们能够通过相同训练条件下的困惑度分析和规模分析来研究架构特性;(iv)我们提供了DLMs计算需求的比较分析,报告了单次前向传递和完整生成两种情况下的峰值内存使用和浮点运算次数,突显了纯扩散与块扩散架构之间的实际部署权衡。

## 2 背景

### 2.1 自回归语言建模

自回归语言模型通过将联合分布分解为条件分布的乘积来定义词元序列的概率分布:

p(x1,...,xT)=∏t=1Tp(xt∣x<t)。p(x_{1},\ldots,x_{T})=\prod_{t=1}^{T}p(x_{t}\mid x_{<t})。\(1\)
这种公式化使得最大似然训练变得直接,并且随着Transformer架构的发展而有效扩展,在广泛自然语言处理任务中带来了强大的实证性能[austin2021program,caffagni2024revolution,zini2026vhector,bucciarelli2024personalizing]。特别是,大规模自回归语言模型展现出新兴的零样本和上下文学习能力,使其成为语言建模的主导范式。

尽管有这些优势,自回归生成本质上是顺序的:词元必须基于之前的上下文逐个生成。这限制了推理过程中的并行性,并导致延迟随序列长度线性增长。此外,从左到右的生成过程要求模型顺序做出决策,使得一旦生成就很难重新审视早期的预测。虽然这些限制并未阻止自回归模型取得最先进的性能,但它们激励了对可能提供更高效率或不同质量-计算权衡的替代生成范式的探索。

### 2.2 扩散作为一种生成范式

扩散模型提供了一种基于迭代去噪的生成建模替代方法。通过一个前向噪声过程逐步破坏数据样本,然后训练一个神经网络逐步逆转这个过程[esser2024scaling,bucciarelli2026tiny]。生成过程从噪声开始,迭代地将样本精炼为连贯的输出。扩散模型的一个关键概念优势是能够在每个去噪步骤中并行地精炼整个表示。与逐步扩展部分输出不同,该模型在每一步同时更新样本的所有组件,无论是图像潜在表示还是文本词元。这种全局精炼过程允许信息在整个生成过程中跨整个表示传播,可能实现比自回归解码更连贯的输出和更大的并行性。然而,扩散模型引入了一个不同的计算瓶颈:生成通常需要多个去噪迭代。因此,推理效率不仅取决于单次前向传递的计算成本,还取决于精炼步骤的总数,从而在生成质量和计算效率之间建立了明确的权衡。

### 2.3 语言的连续扩散

早期将扩散模型应用于语言建模的尝试通过在连续嵌入空间中操作,将视觉领域的连续扩散技术扩展到文本。在这些方法中,离散词元被映射到连续向量表示,并在该潜在空间中施加高斯噪声。然后训练一个神经网络去噪损坏的嵌入。

这种设计使得可以重用为连续数据域开发的标准扩散机制,并允许跨序列的并行更新。然而,由于连续噪声过程与离散语言结构之间的不匹配,出现了一些基本挑战。

首先,语言本质上是离散的,嵌入空间中的扰动并不对应于明确定义的符号变换。因此,去噪轨迹可能会穿过嵌入空间中不能干净地映射到有效或有意义词元的区域。其次,将连续表示投射回离散词元的最后一步引入了额外的量化误差,可能降低生成质量。最后,嵌入空间中的微小扰动可能引起不成比例的巨大语义变化,使去噪过程难以稳定。

这些问题表明连续扩散可能与语言的离散性质不一致,从而激发了直接在词元序列上定义扩散过程的方法。

### 2.4 离散扩散语言模型

离散扩散模型通过直接在词元空间操作来解决连续方法的局限性。它们不是向嵌入添加高斯噪声,而是通过离散随机过程(如掩码、词元替换或类别噪声注入)逐步损坏词元。训练一个神经模型从这些损坏版本中重建原始序列。

两种常见的损坏策略是**均匀扩散**和**吸收扩散**。在均匀扩散中,词元被随机采样的词汇项替换,逐步将序列转换为词元上的均匀分布。在吸收扩散中,词元被逐步替换为一个特殊的吸收状态(例如,[MASK]词元),允许模型从部分掩码输入中学习重建。这些选择影响所得模型的学习动态和生成行为。在实践中,吸收扩散已成为近期DLMs中的主导方法,因为实证研究通常发现它比均匀损坏方案提供更强的性能和更稳定的训练动态[austin2021structured]。

这种公式化自然地与语言结构对齐,并消除了连续到离散输出投影的需要。此外,离散扩散使每个去噪步骤中能够并行预测多个词元,提供了相对于自回归生成的潜在效率优势。

与其他基于扩散的方法一样,离散扩散模型在推理时依赖迭代去噪过程,使得生成质量和计算效率与执行的去噪步数紧密相关。虽然减少步数可以加速生成,但可能影响输出质量,从而激发对更好平衡这些目标的架构和采样策略的研究。尽管存在这种权衡,最近的进展表明离散扩散模型可以在各种语言生成任务中实现有竞争力的性能。

### 2.5 块扩散与混合扩散方法

为了解决基于迭代扩散生成的推理成本问题,最近的工作探索了结合自回归和扩散建模的混合架构。

这些方法不是像传统自回归语言模型那样逐个词元生成序列,而是将输出划分为词元的块。然后,生成过程在块级别以自回归方式进行:每个块基于先前生成的块进行条件化,保留了一种因果结构以促进长程连贯性和高效上下文建模。然而,在每个块内部,词元是使用扩散过程而非从左到右解码过程生成的。模型并行地对块内的词元进行迭代去噪,允许局部精炼并减少自回归解码特有的顺序依赖。因此,块扩散可以看作两种范式之间的折衷:自回归生成提供跨块的全局结构,而扩散生成则实现块内部的并行精炼。

通过结合这些机制,块扩散旨在实现比单独任一范式更有利的质量-效率权衡。与自回归模型相比,它减少了推理过程中的顺序解码步骤;与扩散模型相比,它避免了全序列迭代精炼。然而,其有效性取决于所选的块结构和去噪调度,自回归和扩散组件之间的平衡仍是一个活跃的研究领域。

## 3 相关工作

### 3.1 生成范式

**自回归语言模型。** 自回归语言模型构成了标准流程

相似文章

TrustLDM:语言扩散模型可信度基准测试

arXiv cs.CL

介绍TrustLDM,一个全面评估语言扩散模型安全性、隐私性和公平性的基准测试,揭示其对齐行为在恶意后上下文环境下会退化。提出自动评估框架TrustLDM-Auto,用于识别脆弱配置。

LangFlow:连续扩散在语言建模中可与离散扩散相媲美

Hugging Face Daily Papers

LangFlow提出了首个可与离散扩散方法相媲美的连续扩散语言模型,挑战了长期以来认为连续扩散在语言建模中劣于离散扩散的观点。该工作引入了基于最优Gumbel噪声调度等关键要素,并展示了与离散扩散基线相比具有竞争力的困惑度和迁移学习性能。

可学习性引导的扩散语言模型微调

arXiv cs.CL

我们提出LIFT,一种可学习性引导的扩散语言模型微调算法,该算法根据 token 难度和时间步对齐训练,在推理基准测试上取得了显著提升。