不要重新训练,只需对齐:通过表征对齐将自回归语言模型适配为扩散语言模型
摘要
本文介绍了 Repr-Align,一种通过表征对齐将自回归语言模型适配为扩散语言模型的方法,无需从头重新训练表征即可实现高达 4 倍的训练加速。
arXiv:2605.06885v1 公告类型:新论文
摘要:扩散语言模型(DLMs)最近展示出了能够补充标准自回归(AR)模型的能力,特别是在非顺序生成和双向编辑方面。尽管最近的研究表明预训练的自回归检查点可以转换为扩散语言模型,但现有的方法主要通过带有目标函数和注意力机制修改的持续去噪训练来迁移参数。我们转而探讨在从自回归模型到扩散模型的转换过程中,是否可以通过保留由下一个 token 预测学习到的内部表征几何结构来实现更高效的学习。我们假设自回归预训练中学到的大部分语义结构可以跨生成顺序迁移,因此扩散模型的训练应被视为重新学习解码路径,而非重新学习语言表征。为了研究这一问题,我们引入了 REPR-ALIGN,这是一种表征对齐目标,旨在适配双向掩码扩散模型以复用相同架构的预训练自回归模型的表征。具体来说,我们在每一层使用余弦相似度将扩散模型的隐藏状态对齐到冻结的自回归模型,同时优化标准的掩码去噪目标。这种简单的对齐方法在不使用适配器且除注意力掩码外不进行任何架构修改的情况下,在我们的设置中实现了高达 4 倍的训练加速,并在低数据场景中尤为有效。我们的结果表明,语言表征可以在不同的生成顺序之间迁移,而表征对齐为训练扩散语言模型提供了一种简单而有效的技术。代码发布于 https://github.com/pengzhangzhi/Open-dLLM。
查看缓存全文
缓存时间: 2026/05/11 07:03
# 不要重新训练——对齐:通过表示对齐将自回归语言模型适配为扩散语言模型
来源:https://arxiv.org/html/2605.06885
**Fred Zhangzhi Peng**
杜克大学
**Alexis Fox**
杜克大学
**Anru R. Zhang**
杜克大学
**Alexander Tong**
AITHYRA
###### 摘要
扩散语言模型(DLMs)最近展示出了能够补充标准自回归(AR)模型的能力,特别是在非顺序生成和双向编辑方面。尽管近期研究表明,预训练的自回归检查点可以转换为扩散语言模型,但现有的方法主要通过带有目标和注意力层面修改的持续去噪训练来转移参数。我们转而探讨:在从 AR 到 DLM 的转换过程中,是否可以在明确保留由下一个词预测所学习到的内部表示几何结构?我们假设,AR 预训练中学到的许多语义结构可以在不同的生成顺序之间迁移,因此 DLM 的训练应被视为重新学习解码路径,而非重新学习语言表示。为了研究这一问题,我们引入了 **Repr-Align**,一种*表示对齐*目标,用于调整双向掩码扩散模型以复用具有相同架构的预训练 AR 模型中的表示。具体来说,我们在每一层使用余弦相似度将 DLM 的隐藏状态对齐到冻结的 AR 模型,同时优化标准的掩码去噪目标。这种简单的对齐方式——在没有适配器且除注意力掩码外无其他架构变更的情况下——在我们的设置中实现了高达 **4** 倍的训练加速,并且在低数据场景中尤为有效。我们的结果表明,无论生成顺序如何,语言表示具有通用性,而表示对齐可能成为训练扩散语言模型的一种全新首选技术。代码可用地址:https://github.com/pengzhangzhi/Open-dLLM。
参见图注 (a) 适配速度。
参见图注 (b) 公共 DLM 前沿。
**图 1:不要重新训练——对齐。**
左图:**Repr-Align** 在 HumanEval pass@10 上始终加速 AR→DLM 的适配过程,在早期转换阶段均优于 AR 微调和无基础训练。
右图:生成的 oDLM 在公共 DLM 中实现了有利的 HumanEval pass@10 与训练数据权衡。
## 1 引言
参见图注 **图 2:我们方法 Repr-Align 的概览**:通过将注意力切换为双向注意力,并使用掩码去噪目标进行训练,同时将逐层隐藏状态锚定到冻结的 AR 主干网络,我们将预训练的自回归(AR)Transformer 适配为掩码扩散语言模型(DLM)。
大规模语言建模中的主导范式长期以来一直是自回归(AR)序列建模。通过将联合概率分布分解为条件概率的乘积,GPT 和 Qwen 等模型展示了强大的通用生成能力(Radford et al., 2019; Achiam et al., 2023; Touvron et al., 2023)。近期,扩散语言模型(DLMs)作为文本生成的另一种 formulation 应运而生,涵盖了基于嵌入的连续扩散、离散吸收态扩散、基于似然的扩散 LM、掩码扩散 LM 以及大规模 DLM(Li et al., 2022; Austin et al., 2021a; Gulrajani and Hashimoto, 2023; Sahoo et al., 2024; Nie et al., 2025b; Ye et al., 2025)。通过将生成框架化为任意顺序解码(Sohl-Dickstein et al., 2015; Ho et al., 2020; Yang et al., 2019; Ghazvininejad et al., 2019),DLMs 天然支持非从左到右的行为,如填缝(infilling)和迭代细化(Sahoo et al., 2024; Gulrajani and Hashimoto, 2023; Chang et al., 2022)。
尽管具有这些优势,扩展 DLMs 仍然昂贵。理论上,DLMs 学习 $L!$ 条路径来生成一个序列,而 AR 模型仅有一条从左到右的生成路径,因此需要 $L!$ 倍的计算资源。虽然几种近期方法通过从预训练 AR 检查点初始化或将 AR 模型转换为 DLMs 来降低这一成本(Gong et al., 2025a; Ye et al., 2025; Fu et al., 2025),但现有的转换配方主要通过持续去噪训练、注意力模式修改或采样约定来复用 AR 参数。它们并未显式约束转换后的 DLM 保留 AR 模型内部表示几何结构。
在本文中,我们质疑将 ARs 和 DLMs 视为两个不相交范式的必要性。我们从这样一个简单的观点出发:语言生成的难点在于学习语言表示——即数据的语义和句法结构——而不是承诺特定的生成顺序。自回归预训练已经学习了组织这种结构的强大内部特征。如果确实如此,训练扩散语言模型就不需要从头重新学习语言表示。相反,剩余的工作主要是机械性的:将这些现有特征适配为迭代式任意顺序解码器。这将 DLM 训练从表示学习重构为一个对齐问题,其中我们复用 AR 主干用于表示,并训练扩散机制在相同的特征空间中但以任意顺序生成运行。
为了验证这一假设,我们首次应用*表示对齐*(Yu et al., 2025; Singh et al., 2025; Wu et al., 2025; Jiang et al., 2025),以极简方式将预训练 AR Transformer 适配为掩码扩散语言模型(图 2)。我们的设置使用两个具有相同架构的模型:(i) 具有因果注意力的预训练 AR 模型,以及 (ii) 从 AR 权重初始化但具有双向注意力的相同架构。在训练期间,我们随机掩码一个序列,并优化 DLM 以预测被掩码的 token。与此同时,我们将干净序列输入到冻结的 AR 模型中(在因果注意力下进行教师强制),并提取其每一层的隐藏状态。由于两个网络共享相同的层结构和隐藏大小,我们可以直接通过逐层余弦相似度损失对齐它们的中间表示,而无需引入适配器或额外参数。直观地说,AR 模型提供了稳定的表示锚点,扩散训练简化为学习在该锚定特征空间中运行的任意顺序解码机制。该方法旨在尽可能少地改变现有结构,以便任何增益都可归因于 AR 特征的复用,而非架构修改或重度微调。
我们的实验支持“通过对齐复用”的观点:表示对齐将 AR→DLM 转换变成了一个主要是机械适配的问题,而非重新学习语言表示。在 HumanEval 上,对齐提高了转换质量,且随着模型规模增大,增益也随之增加(图 3),在 0.6B 模型上将 pass@10 从 24.9 提升至 31.0,在 1.7B 模型上从 31.1 提升至 40.5。除了质量提升外,对齐还通过选择性训练实现了更廉价的转换(图 4),并且在仅使用 0.8B token 的*tiny*子集下依然有效(图 5)。作为规模扩展验证,我们使用相同的表示保留转换配方训练了一个 4B 的 oDLM。与同样基于 AR 初始化的强力公共 DLM Dream-7B 相比,oDLM 实现了更好的 HumanEval 家族 pass@10 与数据/计算预算的权衡(图 1(b) 和 图 1):尽管使用的参数更少且数据和计算预算大幅减轻,它仍将 HumanEval 和 HumanEval+ pass@10 分别提高了 2.39 和 2.40 个点。
#### 贡献
我们的贡献总结如下:
* 我们指出**表示保留**是 AR→DLM 转换中缺失的一环。我们不仅从 AR 检查点初始化,还在掩码去噪训练期间,将 DLM 学生模型显式锚定到冻结 AR 模型的逐层隐藏状态几何结构。
* 我们引入了一种简单的表示保留转换配方,除了将从因果注意力切换到双向注意力外,不需要任何适配器或架构变更。在不同模型规模下,表示对齐提高了转换质量和样本效率,且在较大模型尺寸下增益更大。
* 我们表明 AR→DLM 转换本质上并不极度依赖数据或参数更新。通过表示对齐,在 0.8B token 子集上进行的训练可以在相同步数预算下胜过在全量 50B token 流上的训练;此外,冻结嵌入层和 MLP 块可以在不降低质量的情况下将吞吐量提高多达 $\sim2\times$。
* 作为规模扩展验证,我们使用相同配方训练了一个 4B oDLM。与同样利用 AR 初始化的强力公共 DLM Dream-7B 相比,oDLM 将 HumanEval 和 HumanEval+ pass@10 分别提高了 2.39 和 2.40 个点,同时使用了更小的主干网络和大幅减轻的数据与计算预算。
## 2 相关工作
#### 扩散语言模型
扩散语言模型涵盖基于嵌入的连续扩散、离散分类扩散、基于似然的扩散 LM 以及掩码扩散 LM(Li et al., 2022; Austin et al., 2021a; Gulrajani and Hashimoto, 2023; Sahoo et al., 2024; Nie et al., 2025a)。LLaDA 和 Dream 等近期大规模系统表明,掩码扩散可以在十亿参数规模上支持指令遵循、推理和代码生成(Nie et al., 2025b; Ye et al., 2025)。这些进展使 DLMs 成为自回归生成的有力替代方案,但具有竞争力的 DLMs 仍需大量针对扩散特定的优化。我们在 **附录 A.1** 中提供了关于 DLM 配方的更详细讨论。
#### 将自回归模型适配为扩散语言模型
越来越多的工作通过将从预训练 AR 检查点转换为去噪模型来避免从零开始训练 DLMs(Gong et al., 2025a; Ye et al., 2025; Xie et al., 2025; Fu et al., 2025; Xue et al., 2025)。这些方法确立了 AR 检查点是强大的初始点,但它们主要适应目标函数、掩码过程、注意力模式或采样约定。我们的工作则通过将对齐双向 DLM 学生模型与冻结的同架构 AR 教师模型,显式保留 AR 模型的内部表示几何结构,如 **第 3.3 节** 所述。**附录 A.2** 和 **A.3** 提供了与 AR→DLM 转换、任意顺序生成、迭代掩码解码及路径规划方法的更全面对比。
#### 生成模型的表示对齐
表示对齐最近通过匹配生成模型隐藏状态与来自强预训练编码器的表示,加速了扩散训练(Yu et al., 2025; Singh et al., 2025; Wu et al., 2025; Jiang et al., 2025)。我们的设置在教师模型和目的上均有所不同:教师模型并非外部编码器,而是正在转换的确切 AR 模型,具有与 DLM 学生模型相同的 tokenizer、架构、隐藏大小和初始化。因此,对齐在此处作为机制适配期间的表示保留发挥作用,而非从另一模型导入特征;**公式 2** 给出了确切的目标函数。**附录 A.4** 扩展了这一区别。
## 3 方法
我们研究以下问题:**由下一个词预测学习到的表示是否足以支持掩码去噪生成?** 为了隔离这一因素,我们保持架构固定,仅更改扩散式去噪所必需的部分。我们的方法实例化了两个具有相同参数化和维度的 Transformer:一个具有因果注意力的预训练自回归(AR)模型,以及一个具有双向注意力的掩码扩散模型。然后,我们使用标准掩码预测目标训练扩散模型,同时添加单一的逐层表示对齐损失以复用 AR 模型内部特征。**算法 1** 总结了整体转换过程。未引入任何适配器或辅助模块。以下四项设计选择直接对应 **第 4.1 节** 中的实验设置及 **第 4.3 节** 中的消融实验。
**算法 1:Repr-Align:带逐层表示对齐的 AR→DLM 转换**
```python
theta = theta_AR
freeze(f_AR); f_AR.eval()
for x in data_stream:
r = Uniform(0, 1)
M = sample_positions(x, r)
x_tilde = x.clone(); x_tilde[M] = mask_id
logits, H_D = f_D(x_tilde, bidir=True, output_hidden_states=True)
with no_grad():
_, H_AR = f_AR(x, causal=True, output_hidden_states=True)
loss_diff = CE(shift_logits_1(logits)[M], x[M])
loss_align = (1 - cos(H_D, H_AR)).mean()
loss = loss_diff + lambda_align * loss_align
step_optimizer(theta, loss)
```
### 3.1 两个模型,相同架构
令 $x=(x_1, \dots, x_n) \in \mathcal{V}^n$ 为一个 token 序列,并令 $\mathcal{V}$ 包含一个特殊掩码 token $\langle\mathrm{M}\rangle$。我们定义:(i) 一个具有*因果*注意力掩码的自回归 Transformer $f_{\mathrm{AR}}(\cdot; \theta_{\mathrm{AR}})$,通过下一个词预测进行预训练;以及 (ii) 一个具有*双向*注意力的扩散 Transformer $f_{\mathrm{D}}(\cdot; \theta)$。关键在于,$f_{\mathrm{AR}}$ 和 $f_{\mathrm{D}}$ 共享相同的层结构和隐藏大小 $d$;唯一的架构差异在于注意力掩码。我们在整个训练过程中保持 $\theta_{\mathrm{AR}}$ 冻结。在实践中,我们从 $\theta_{\mathrm{AR}}$ 初始化 $\theta$...相似文章
通过在线策略蒸馏实现数据高效的自回归到扩散语言模型
本文介绍了OPDLM,一种通过在线策略蒸馏将自回归语言模型转换为扩散语言模型的方法,所需训练令牌数量减少15倍到7000倍,同时保留原始模型的知识。
@DailyDoseOfDS_: 将任意自回归LLM转换为扩散LM。dLLM是一个Python库,统一了扩散语言模型的训练与评估…
dLLM是一个开源Python库,能以极少的计算资源将任意自回归语言模型转换为扩散语言模型,统一训练和评估。
MaskAlign: Token子集表征对齐实现高效扩散训练
MaskAlign提出了一种Token子集表征对齐方法,通过减少对完整Token集的依赖,并在扰动下保持稳定对齐,从而改进扩散Transformer训练。
读取轨迹,引导路径:面向扩散语言模型的轨迹感知强化学习
本文介绍了 CAPR(缓存摊销路径精化),一种用于扩散大语言模型的强化学习算法。该算法无需完整树展开的计算开销,即可从去噪轨迹中提取类树状监督信号。CAPR 在 GSM8K、Math500、数独和倒计时等推理基准测试上达到了最先进的性能,计算成本仅为平坦展开方式的约 0.75 倍。
DiffRetriever:基于扩散语言模型的并行代表性令牌检索
本文介绍了 DiffRetriever,这是一种利用扩散语言模型并行生成多个代表性令牌以实现高效信息检索的方法,在速度和准确率上均优于自回归基线方法。