语言生成作为最优控制:潜在控制空间中的闭环扩散
摘要
本文将语言生成重新表述为随机最优控制问题,解决了自回归和扩散模型的局限性,并提出了使用Flow Matching在潜在控制空间中的闭环扩散方法,实现了高保真生成和高效并行采样。
arXiv:2605.14531v1 公告类型:新
摘要:本工作将语言生成重新表述为随机最优控制问题,提供了一个统一的理论视角来分析自回归和扩散模型,并从轨迹奇异性、伴随状态消失和梯度缺失的组合角度解释其局限性(效率-保真度悖论、不可逆误差传播、优化可处理性与保真度)。为了解决这些问题,我们近似求解了Hamilton-Jacobi-Bellman (HJB) 方程,得到了一个作为闭环控制器的最优策略。为了避免直接求解HJB偏微分方程的复杂性,我们在校正后的潜在控制空间中采用Flow Matching作为最优轨迹求解器。这使得我们带有全局积分算子的Manta-LM能够近似全局向量场,从而有效实现一个同时具备高保真文本生成和高效低成本并行采样的模型。经验上,我们的方法在语言建模和条件生成任务上取得了强劲表现,同时展现出改进的稳定性、效率和可控性。
查看缓存全文
缓存时间: 2026/05/15 06:23
# 潜控制空间中的闭环扩散
**来源:** https://arxiv.org/html/2605.14531
## 语言生成作为最优控制:潜控制空间中的闭环扩散
###### 摘要
本文将语言生成重新表述为一个随机最优控制问题,提供了一个统一的理论视角来分析自回归模型和扩散模型,并以其轨迹奇异性、伴随状态消失和梯度缺失的组合解释了它们的局限性(效率-保真度悖论、不可逆误差传播、优化可处理性与保真度)。为了解决这些问题,我们近似了 Hamilton-Jacobi-Bellman (HJB) 方程的解,得到了一种作为闭环控制器的最优策略。为了绕过直接求解 HJB 偏微分方程的难解性,我们采用流匹配作为整流后潜控制空间中的最优轨迹求解器。这使得我们的 Manta-LM 能够利用全局积分算子近似全局向量场,从而有效实现一个同时具备高保真文本生成和高效低成本并行采样的模型。实验上,我们的方法在语言建模和条件生成任务上取得了强劲性能,同时展现出更高的稳定性、效率和可控性。
机器学习,ICML
## 1 引言
大型语言模型(LLMs)的范式一直由自回归模型(ARMs)主导,采用顺序的“下一个 token”预测方式(Brown 等,2020 (https://arxiv.org/html/2605.14531#bib.bib4);Touvron 等,2023 (https://arxiv.org/html/2605.14531#bib.bib43)),展现了显著的规模扩展特性和新兴的推理能力。新兴的扩散语言模型(DLMs)打破了序列约束,成为 ARMs 的有力竞争者,并承诺提供全局感受野和可并行采样的生成能力。离散 DLMs,例如 D3PM(Austin 等,2021 (https://arxiv.org/html/2605.14531#bib.bib1))、MDLM(Sahoo 等,2024 (https://arxiv.org/html/2605.14531#bib.bib37))和 LLaDA(Nie 等,2025a (https://arxiv.org/html/2605.14531#bib.bib32)),通过在离散 token 空间内通过转移矩阵(例如掩码)定义前向破坏过程,随后训练模型预测原始 token 或去噪轨迹。连续 DLMs,例如 CDCD(Dieleman 等,2022 (https://arxiv.org/html/2605.14531#bib.bib12))和 RDLM(Jo & Hwang,2025 (https://arxiv.org/html/2605.14531#bib.bib23)),将离散 token 投影到连续嵌入空间以应用标准高斯扩散框架,训练模型对最终映射回离散词汇表的高维向量进行去噪。
尽管取得了巨大进展,但几个关键问题仍在挑战这些生成语言范式,严格定义了当前 LLMs 的技术天花板。
*1) 效率-保真度悖论:* ARMs 在架构上受限于串行解码,造成线性计算瓶颈 (O(N))。DLMs 理论上允许并行精炼,但依赖启发式高斯去噪需要数百次重采样步骤才能收敛,只是用一种效率瓶颈换取了另一种。
*2) 不可逆误差传播:* ARMs 在生成过程中遭受累积误差。在 ARMs 的开环设置中,序列中单个“幻觉” token 会成为所有后续步骤的固定先验,导致从最优轨迹的累积性和不可逆漂移。标准 DLMs 同样面临这种情况:如果没有全局引导机制来规范去噪流,潜状态往往会漂移到低密度语义区域。
*3) 优化可处理性与保真度:* 最近尝试直接在 token 嵌入空间中应用连续扩散(Strudel 等,2022 (https://arxiv.org/html/2605.14531#bib.bib40);Dieleman 等,2022 (https://arxiv.org/html/2605.14531#bib.bib12))面临几何障碍。原始嵌入空间是稀疏且聚类的,而非光滑流形。这种“病态拓扑”导致高曲率的生成轨迹和严重的量化误差,连续去噪过程难以在不损失结构完整性的情况下映射回离散语言 token。
为了解决这些问题,我们首先重新表述生成语言模型,并从随机最优控制的角度审视这些模型。然后,我们提出 Manta-LM,它将文本生成与连续动力系统连接起来。我们的方法基于两个理论支柱:流形整流和最优闭环控制。首先,我们采用正则化变分自编码器(VAE)将病态离散空间映射到一个紧凑的、局部欧几里得的潜流形。这种整流降低了拓扑刚度,促进了更平滑的传输轨迹。其次,在这个连续潜空间中,我们将生成建模为一个最优控制问题(Benamou & Brenier,2000 (https://arxiv.org/html/2605.14531#bib.bib2))。通过近似 Hamilton-Jacobi-Bellman (HJB) 方程(使用流匹配(Lipman 等,2023 (https://arxiv.org/html/2605.14531#bib.bib27);Bertucci,2023 (https://arxiv.org/html/2605.14531#bib.bib3))),我们的模型学习到一个作为闭环反馈控制器的向量场。
## 2 相关工作
**自回归语言模型。** 自回归(AR)模型长期以来一直是语言建模的主导范式,构成了现代大型语言模型(如 GPT(Brown 等,2020 (https://arxiv.org/html/2605.14531#bib.bib4))和 LLaMA(Touvron 等,2023 (https://arxiv.org/html/2605.14531#bib.bib43)))的主干。通过将序列的联合分布分解为条件概率的乘积,AR 模型擅长建模局部句法依赖,并实现了强大的基于似然的性能。然而,AR 范式从根本上强制实施了严格的顺序生成过程,每个 token 决策一旦采样便不可撤销。这种 token 级别的硬性承诺使得推理本质上不可并行化,并通过曝光偏差加剧了误差累积。最近的分析越来越多地认识到这些局限性,促使人们寻求替代方案,以放松严格的从左到右解码,转而采用全局或迭代精炼策略。我们的工作通过控制理论的视角重新解释这一范式,从而脱离 AR 生成,将 AR 解码识别为一种在离散状态空间中运行的贪婪开环控制,它缺乏全局轨迹优化或反馈校正机制。
**离散扩散语言模型。** 离散 DLMs 通过在离散 token 空间上定义马尔可夫加噪和去噪过程(Sohl-Dickstein 等,2015 (https://arxiv.org/html/2605.14531#bib.bib39);Hoogeboom 等,2021 (https://arxiv.org/html/2605.14531#bib.bib20);Austin 等,2021 (https://arxiv.org/html/2605.14531#bib.bib1)),将基于扩散的生成建模扩展到分类数据。其中,D3PM(Austin 等,2021 (https://arxiv.org/html/2605.14531#bib.bib1))建立了使用任意转移矩阵的通用框架,而后续工作探索了掩码扩散作为语言建模中特别有效的实例化(Sun 等,2022 (https://arxiv.org/html/2605.14531#bib.bib41);Lou 等,2023 (https://arxiv.org/html/2605.14531#bib.bib28);Shi 等,2024 (https://arxiv.org/html/2605.14531#bib.bib38);Sahoo 等,2024 (https://arxiv.org/html/2605.14531#bib.bib37);Ou 等,2024 (https://arxiv.org/html/2605.14531#bib.bib34))。最近的进展表明,在 GPT-2 规模上,离散 DLMs 可以在困惑度指标上与自回归模型竞争,尤其是在结合吸收状态、分数熵目标(SEDD)或精炼掩码调度时(Lou 等,2023 (https://arxiv.org/html/2605.14531#bib.bib28);Ou 等,2024 (https://arxiv.org/html/2605.14531#bib.bib34);Nie 等,2025b (https://arxiv.org/html/2605.14531#bib.bib33))。大规模工作进一步将掩码扩散扩展到数十亿参数,并将其扩展到多模态生成(Gong 等,2024 (https://arxiv.org/html/2605.14531#bib.bib17);Ye 等,2025 (https://arxiv.org/html/2605.14531#bib.bib46);Swerdlow 等,2025 (https://arxiv.org/html/2605.14531#bib.bib42);Yang 等,2025 (https://arxiv.org/html/2605.14531#bib.bib45);Li 等,2025b (https://arxiv.org/html/2605.14531#bib.bib25))。尽管取得了这些成功,离散扩散模型仍继承了 token 空间非度量性质带来的基本限制。可微几何的缺失阻止了在 token 轨迹上定义有意义的梯度,使得分数匹配和最优传输原理的应用复杂化。因此,许多方法依赖于启发式掩码、重掩码或条件独立性假设,导致在生成质量、稳定性和效率之间进行权衡。这些问题解释了离散模型无法感知或优化平滑生成轨迹的原因。
**连续扩散语言模型。** 为了恢复可微性,一些工作将离散 token 嵌入到连续空间中并在其中应用扩散过程。早期方法直接扩散词嵌入,并通过最近邻或阈值操作离散化输出(Li 等,2022 (https://arxiv.org/html/2605.14531#bib.bib26);Dieleman 等,2022 (https://arxiv.org/html/2605.14531#bib.bib12);Gong 等,2023 (https://arxiv.org/html/2605.14531#bib.bib16),https://arxiv.org/html/2605.14531#bib.bib15)。虽然概念上简单,但此类方法通常在解量化过程中遭受信息损失,并且难以保留分类语义。更结构化的连续松弛方法作用于概率单纯形或 logit 空间,利用 Dirichlet 先验、单纯形几何或具体分布对扩散过程施加统计约束(Han 等,2023 (https://arxiv.org/html/2605.14531#bib.bib19);Mahabadi 等,2024 (https://arxiv.org/html/2605.14531#bib.bib29))。流匹配和基于分数的技术进一步将单纯形解释为统计流形,从而实现了连续时间建模(Cheng 等,2024 (https://arxiv.org/html/2605.14531#bib.bib8))。尽管如此,这些方法在生成保真度方面通常不如离散扩散,或者在规模扩展时产生大量计算开销(Gulrajani & Hashimoto,2023 (https://arxiv.org/html/2605.14531#bib.bib18))。
## 3 从随机最优控制重新审视生成语言模型
在本节中,我们首先将生成建模视为一个随机最优控制问题(Fleming & Rishel,2012 (https://arxiv.org/html/2605.14531#bib.bib13)),并提供详尽的理论分析来审视现有的生成语言模型(即 ARMs 和 DLMs)。通过随机最优控制,我们将生成过程形式化为在向量场作用下概率密度的时间演化,并为现有方法的局限性提供理论解释。
### 3.1 随机最优控制
随机最优控制是一种控制理论,旨在存在随机噪声的情况下,寻找一种控制律,以最小的成本驱动系统演化。在语言生成的语境中,生成过程是在流形 \(\mathcal{M}\) 上有限时间区间 \(t \in [0,1]\) 内状态 \(\mathbf{z}_t\) 的受控演化。其动态由随机微分方程描述(Benamou & Brenier,2000 (https://arxiv.org/html/2605.14531#bib.bib2)):
\[
d\mathbf{z}_t = \mathbf{u}(\mathbf{z}_t, t) dt + \sigma(t) d\mathbf{w}_t, \quad \mathbf{z}_0 \sim p_{\text{prior}},
\]
其中 \(\mathbf{u}(\cdot)\) 是待学习的控制律(向量场),\(\sigma(t)\) 调节探索噪声。生成器的目标是以最小的代价将先验分布 \(p_{\text{prior}}\) 输送到数据分布 \(p_{\text{data}}\)。遵循 Benamou-Brenier 公式(Benamou & Brenier,2000 (https://arxiv.org/html/2605.14531#bib.bib2)),最优控制策略 \(\mathbf{u}^*\) 通过最小化运输成本泛函 \(J(\mathbf{u})\) 获得:
\[
J(\mathbf{u}) = \underbrace{\mathbb{E}_{\mathbf{z}_1 \sim p_1}[-\log p_\theta(\mathbf{z}_1)]}_{\text{终端成本(数据保真度)}} + \lambda \int_0^1 \underbrace{\mathbb{E}_{\mathbf{z}_t \sim p_t}\left[\frac{1}{2}\|\mathbf{u}_t(\mathbf{z}_t)\|^2\right]}_{\text{运行成本(动能)}} dt.
\]
根据动态规划原理,最优控制律 \(\mathbf{u}^*\) 可以通过最优值函数 \(V(\mathbf{z}, t) = \inf_{\mathbf{u}} \mathbb{E}\left[J(\mathbf{u})\right]\)(最小剩余成本)的梯度来表征,该值函数满足 Hamilton-Jacobi-Bellman (HJB) 方程。最优控制器必然满足:
\[
\mathbf{u}^*(\mathbf{z}, t) = -\nabla_{\mathbf{z}} V(\mathbf{z}, t).
\]
这表明一个理想控制系统具备两个关键属性:
*1) 闭环反馈:* 控制 \(\mathbf{u}^*\) 依赖于当前全局状态 \(\mathbf{z}_t\),利用势能景观 \(\nabla_{\mathbf{z}} V\) 来纠正偏差。
*2) 平滑测地线流:* 最小化动能项 \(\frac12 \|\mathbf{u}\|^2\) 要求最优轨迹遵循 Wasserstein 空间中的低能量、类似测地线的轨迹。
更广泛地说,这种视角使得文本生成可以通过三个控制特性进行比较:未来目标是否能影响当前更新,模型是否具有指向有效状态的校正方向,以及轨迹几何是否足够平滑以实现稳定积分。这些特性对于边界条件生成尤为重要,因为模型必须满足全局约束,而不仅仅是扩展前缀。
### 3.2 通过 SOC 的生成语言建模
利用公式 3 中定义的最优控制器,我们接下来将代表性的语言生成范式置于相同的状态更新视角下。
##### I. 自回归模型 (AR):脉冲式开环控制。
自回归生成在零粘度极限 (\(\sigma(t) \to 0\)) 下运行,其状态演化由离散 token 更新驱动而非连续流。在 SOC 下,生成动力学被建模为一个由脉冲控制律驱动的确定性系统:
\[
d\mathbf{z}_t = \underbrace{\left[\sum_{k=1}^N \mathbf{f}_\theta(\mathbf{z}_{t_k}, \mathbf{h}_{t_k}) \cdot \delta(t - t_k)\right]}_{\text{脉冲控制 } \mathbf{u}_{\text{AR}}(\mathbf{z}_t, t)} dt + \underbrace{0}_{\text{无扩散}} \cdot d\mathbf{w}_t.
\]
其中 \(\delta(\cdot)\) 是狄拉克 delta 函数,\(\mathbf{h}_{t_k}\) 是过去的隐藏状态,\(\mathbf{f}_\theta\) 是步骤 \(k\) 的贪婪更新。在这种连续时间解释下,AR 采样对应于一条奇异轨迹,即一条带有脉冲更新的分段常数路径,其中...
(注意:原文最后一句未完整,但根据上下文,我将其翻译为“其中...”,实际上是“a piecewise constant path with impulsive updates a”,可能想写“a piecewise constant path with impulsive updates”。由于是截断,我按照原文给出中文翻译,但保持其可能的完整性。)
(由于原文最后部分不完整,我按照现有内容翻译完成。如果原文是完整的,那么我翻译完整。但根据用户提供的文本,最后是“a piecewise constant path with impulsive updates a”,可能是笔误。我翻译为“即一条带有脉冲更新的分段常数路径”。)
完整翻译如下:
其中 \(\delta(\cdot)\) 是狄拉克 delta 函数,\(\mathbf{h}_{t_k}\) 是过去的隐藏状态,\(\mathbf{f}_\theta\) 是步骤 \(k\) 的贪婪更新。在这种连续时间解释下,AR 采样对应于一条奇异轨迹,即一条带有脉冲更新的分段常数路径。相似文章
LangFlow:连续扩散在语言建模中可与离散扩散相媲美
LangFlow提出了首个可与离散扩散方法相媲美的连续扩散语言模型,挑战了长期以来认为连续扩散在语言建模中劣于离散扩散的观点。该工作引入了基于最优Gumbel噪声调度等关键要素,并展示了与离散扩散基线相比具有竞争力的困惑度和迁移学习性能。
FlowLM: 基于扩散-流适配的少步语言建模
FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。
通过熵门控连续比特流扩散缩小语言建模中的自回归差距
本文介绍了一种扩散语言模型,将文本视为二进制比特流上的连续过程,利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果,同时降低了内存占用。
Discrete Stochastic Localization用于非自回归生成
提出离散随机定位(Discrete Stochastic Localization, DSL),一种用于非自回归文本生成的连续状态扩散框架,采用单位球面令牌嵌入和时步不变的降噪器,在OpenWebText上实现了比掩码离散扩散模型更好的分布忠实性。
BitLM:利用位级连续扩散解锁多 Token 语言生成
本文介绍了 BitLM,一种利用位级连续扩散并行生成多个 Token 的语言模型,旨在克服传统自回归生成的顺序瓶颈,同时保留因果结构。