不破坏的引导：基于机制的离散扩散语言模型干预

arXiv cs.LG 2026/05/13 04:00 论文

摘要

本文介绍了一种新颖的自适应调度器，用于利用稀疏自编码器引导离散扩散语言模型，结果表明，基于特定属性提交时机进行针对性干预，比均匀方法能提升控制质量和强度。

arXiv:2605.10971v1 公告类型：新论文摘要：离散扩散语言模型（DLMs）通过并行迭代去噪所有位置来生成文本，为自回归模型提供了一种替代方案。从自回归模型引入的 DLMs 控制生成方法在每一步去噪时施加均匀干预。我们证明这种均匀调度会降低质量，并且在联合引导多个属性时，损害会累积。为了诊断这一失败原因，我们在四个 DLMs（1.24M 至 8B 参数）上训练了稀疏自编码器，并发现不同属性在不同的调度上提交，其在时间、尖锐度和幅度上各不相同。例如，主题在去噪的前 2% 内提交，而情感则在过程的 20% 中逐渐显现。因此，均匀干预在目标属性已经固化或尚未出现的步骤上浪费了引导能力。我们提出了一种新颖的自适应调度器，将干预集中在属性积极形成的步骤上，而保持生成的其余部分不受影响。成本-控制权衡允许封闭形式的表征：自适应调度相对于均匀调度的优势由提交分布的单个分散统计量决定。在四个 DLMs 和七个引导任务中，我们的方法实现了精确控制，而没有典型均匀干预带来的质量下降。特别是在具有挑战性的同时三属性控制中，其引导强度高达 93%，比最强的基线高出多达 15 个百分点，同时保持生成质量。

查看原文

查看缓存全文

缓存时间: 2026/05/13 06:22

# 不破坏的转向：离散扩散语言模型中机制驱动干预

来源: https://arxiv.org/html/2605.10971

Hanhan Zhou∗ AWS AI Labs Santa Clara, CA 95054 hanhanz@amazon\.com &Shamik Roy∗ AWS AI Labs Santa Clara, CA 95054 royshami@amazon\.com Rashmi Gangadharaiah AWS AI Labs Santa Clara, CA 95054 rgangad@amazon\.com

###### 摘要

离散扩散语言模型（DLMs）通过并行迭代去噪所有位置来生成文本，为自回归模型提供了一种替代方案。从自回归模型引入的 DLMs 控制生成方法在每一步去噪时应用均匀干预。我们证明这种均匀调度会降低质量，并且在同时控制多个属性时损害会累积。为了诊断这一失效，我们在四个 DLMs（124M-8B 参数）上训练稀疏自编码器，发现不同属性在不同的调度上做出承诺（commit），这些调度在时间、锐度和幅度上各不相同。例如，主题在去噪的前 2% 内就做出了承诺，而情感则在整个过程的 20% 中逐渐显现。因此，均匀干预浪费了在目标属性已经固化或尚未出现的步骤上的转向能力。我们提出了一种新颖的自适应调度器，将干预集中在属性活跃形成的步骤上，而保持其余生成过程不受干扰。成本-控制权衡具有闭式表征：自适应调度相对于均匀调度的优势由承诺分布的单一离散统计量决定。在四个 DLMs 和七个转向任务中，我们的方法实现了精确控制，而没有通常伴随均匀干预的质量下降。特别是在具有挑战性的三属性同时控制（情感、主题和正式度）上，它达到了高达 93% 的转向强度，比最强的基线高出多达 15 个百分点，同时保持了生成质量。

**footnotetext:Equal contribution\.**

## 1 引言

离散扩散语言模型（DLMs）通过迭代去噪损坏的 token 序列来生成文本，最近已成为与自回归模型相竞争的选择\[2 (https://arxiv.org/html/2605.10971#bib.bib7),32 (https://arxiv.org/html/2605.10971#bib.bib2),20 (https://arxiv.org/html/2605.10971#bib.bib3),42 (https://arxiv.org/html/2605.10971#bib.bib4),25 (https://arxiv.org/html/2605.10971#bib.bib6)\]\。与自回归生成不同，自回归生成中每个 token 以固定的从左到右顺序产生一次，DLMs 在数百个步骤中并行细化所有位置，创建了一个语义内容逐步确定的时间轨迹。这引出了一个根本性问题：DLMs 如何在去噪过程中组织语义属性，以及这种时间结构是否可以被利用于可控生成？

稀疏自编码器（SAEs）将密集激活分解为稀疏、可解释的特征\[12 (https://arxiv.org/html/2605.10971#bib.bib10),9 (https://arxiv.org/html/2605.10971#bib.bib8),36 (https://arxiv.org/html/2605.10971#bib.bib9)\]，并已被用于引导自回归模型\[18 (https://arxiv.org/html/2605.10971#bib.bib15),43 (https://arxiv.org/html/2605.10971#bib.bib20),10 (https://arxiv.org/html/2605.10971#bib.bib16),1 (https://arxiv.org/html/2605.10971#bib.bib14)\]\。并发工作探索将 SAEs 应用于 DLMs\[39 (https://arxiv.org/html/2605.10971#bib.bib1)\]以及通过参考序列对齐引导 DLMs\[3 (https://arxiv.org/html/2605.10971#bib.bib11)\]\。来自自回归模型的其他方法，包括对比向量\[46 (https://arxiv.org/html/2605.10971#bib.bib24),30 (https://arxiv.org/html/2605.10971#bib.bib41)\]和探针\[6 (https://arxiv.org/html/2605.10971#bib.bib42)\]，也可以适配到 DLMs。然而，所有现有方法在每一步去噪时都应用相同的干预，将轨迹视为时间上均匀的。这在单属性和多属性控制中都降低了生成质量，增加了困惑度并降低了多样性，同时增加了跨属性干扰（非目标属性的意外偏移）\[26 (https://arxiv.org/html/2605.10971#bib.bib25),34 (https://arxiv.org/html/2605.10971#bib.bib26)\]，正如我们在 §5 (https://arxiv.org/html/2605.10971#S5) 中验证的那样。然而，属性如何在去噪步骤中形成和确定仍未得到充分探索，留下了时间知情干预是否可以避免这种质量成本的问题。

参见图 1 标题：方法概述。（1）每层训练的 SAEs 将残差流分解为可解释特征。对比选择识别属性相关的特征集 $F_{a}^{\ell}$，其在去噪步骤中的时间确定性定义了自适应调度 $w_{\mathrm{dyn}}(t)$。（2）在每一步 $t$，对选定的特征应用稀疏对比偏移 $\alpha_{\mathrm{eff}}(a,t,\ell)\delta^{(a)}$ 并通过残差校正进行解码，从而实现多属性组合。

我们采取解释优先的方法来弥补这一差距（图 1 (https://arxiv.org/html/2605.10971#S1.F1)\)\。我们在四个 DLMs 上训练 SAEs，涵盖两个训练目标、三种架构和 60 倍规模范围（MDLM\[32 (https://arxiv.org/html/2605.10971#bib.bib2)\]、SEDD\[20 (https://arxiv.org/html/2605.10971#bib.bib3)\]、DREAM\[42 (https://arxiv.org/html/2605.10971#bib.bib4)\] 和 LLaDA\[25 (https://arxiv.org/html/2605.10971#bib.bib6)\]\]），并使用所得特征来表征属性如何在去噪轨迹中演变。我们的分析（§3 (https://arxiv.org/html/2605.10971#S3)\)\）确定了三个直接影响转向的属性：*承诺时间*，即属性在不同的去噪步骤中做出承诺；*承诺锐度*，即出现可能集中在狭窄窗口或分布在整个轨迹中；以及*效应大小不对称性*，即属性具有不同的每特征判别强度。这些发现解释了均匀转向的质量成本：恒定干预在目标属性已经确定或尚未开始出现的步骤上花费预算。

从这些经验概况中，我们推导出了*自适应转向*（§4 (https://arxiv.org/html/2605.10971#S4)\)，一种将干预集中在每个属性活跃形成地方的调度，并让轨迹的其余部分不受干扰。我们将其表述为预算优化问题，并表明最佳调度按每一步的增益成本比分配干预（定理 1 (https://arxiv.org/html/2605.10971#Thmtheorem1)\)\)。对于多属性组合，我们通过不相交的 SAE 特征集进行转向，并通过解码器 Gram 结构限制跨属性干扰（命题 1 (https://arxiv.org/html/2605.10971#Thmproposition1)\)\)。效应大小不对称性促使进行有效性比率校准，以重新平衡每个属性的强度，以免较弱属性被淹没。

在涵盖两个训练目标、三种架构和 60 倍规模范围的四个 DLMs、七个单属性和多属性条件以及四个基线（§5 (https://arxiv.org/html/2605.10971#S5)\）中，自适应转向在保持困惑度和多样性接近未转向模型的同时，匹配或超过基线控制。这些制度遵循定理 1 (https://arxiv.org/html/2605.10971#Thmtheorem1)\)\：在具有尖锐时间轮廓的模型上，Adaptive 在显著较低的困惑度下匹配 Uniform 的控制（例如，在 MDLM 上为 50–57 vs. 59–93）；在具有平坦轮廓的模型如 LLaDA 上，两者收敛。在同时转向 3 个属性（情感、主题和正式度）时，该方法在可用文本质量下达到 93% 的几何平均分类器置信度，超过最强基线多达 15 个百分点。

总之，我们的贡献如下：(i) 对 DLM 去噪过程中语义属性如何出现的机制表征，识别承诺时间、锐度和效应大小不对称性作为属性、模型和训练目标之间变化的主要轴（§3 (https://arxiv.org/html/2605.10971#S3)\）；(ii) 一个具有调度效率闭式表征（定理 1 (https://arxiv.org/html/2605.10971#Thmtheorem1)\）和多属性干扰（命题 1 (https://arxiv.org/html/2605.10971#Thmproposition1)\）的自适应转向框架，其中效率结果产生关于哪些模型受益的可证伪预测（§4 (https://arxiv.org/html/2605.10971#S4)\）；以及 (iii) 跨四个 DLMs 的全面评估，证明自适应转向以比四个基线更低的质量成本和干扰实现强大的单属性和多属性控制（§5 (https://arxiv.org/html/2605.10971#S5)\）。

## 2 相关工作

SAEs 已成为自回归 LM 中*特征解释性*的标准工具，通过词汇投影将特征与概念联系起来\[12 (https://arxiv.org/html/2605.10971#bib.bib10),9 (https://arxiv.org/html/2605.10971#bib.bib8),36 (https://arxiv.org/html/2605.10971#bib.bib9)\]，应用于*因果转向*，如去毒和安全控制\[18 (https://arxiv.org/html/2605.10971#bib.bib15),43 (https://arxiv.org/html/2605.10971#bib.bib20),10 (https://arxiv.org/html/2605.10971#bib.bib16),1 (https://arxiv.org/html/2605.10971#bib.bib14)\]，尽管有效性可能对特征选择和层选择敏感\[31 (https://arxiv.org/html/2605.10971#bib.bib21),5 (https://arxiv.org/html/2605.10971#bib.bib22)\]\。对于 DLMs，并发工作已经开始探索解释性和控制。DLM-Scope\[39 (https://arxiv.org/html/2605.10971#bib.bib1)\]在 DREAM 和 LLaDA 上训练 SAEs 并研究解码顺序的*时间动态*（表示如何随去噪演变），但未进行*跨目标比较*（在相同架构/数据上跨训练损失的分析）或展示*组合控制*（同时转向多个属性）。ILRR\[3 (https://arxiv.org/html/2605.10971#bib.bib11)\]通过参考序列对齐转向 MDLM 和 LLaDA，无需特征级解释性或组合性。其他努力研究 AR vs. DLM 表示\[16 (https://arxiv.org/html/2605.10971#bib.bib12)\]以及用于幻觉检测的时间注意力\[19 (https://arxiv.org/html/2605.10971#bib.bib13)\]\。AR 模型中的多属性控制需要专门方法\[26 (https://arxiv.org/html/2605.10971#bib.bib25),34 (https://arxiv.org/html/2605.10971#bib.bib26)\]；我们表明 DLMs 中的 SAE 特征不相交性允许加法组合。*多尺度*通用性研究已比较了跨大小\[35 (https://arxiv.org/html/2605.10971#bib.bib28)\]和架构\[37 (https://arxiv.org/html/2605.10971#bib.bib27)\]的特征重叠，但未将训练目标作为因果变量。我们在涵盖两个目标和 60 倍规模范围的四个 DLMs 上训练 SAEs，发现解释属性何时变得可转向的时间动态，并利用这些发现进行自适应组合控制，与多个*基线*进行比较（表 1 (https://arxiv.org/html/2605.10971#S2.T1)\)\)。

表 1：我们的工作与并发努力的比较。✓ = 完全，∼ = 部分，✗ = 未解决。

| Work | Models | Approach | Feature Interpretability | Causal Steering | Temporal Dynamics | Cross-Objective | Compositional Control | Multi-Scale Baselines |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| DLM-Scope\[39 (https://arxiv.org/html/2605.10971#bib.bib1)\] | Dream, LLaDA | SAE (Top-K, 16K) | ∼ | ✓ | ✓ | ✗ | ✗ | ∼ |
| ILRR\[3 (https://arxiv.org/html/2605.10971#bib.bib11)\] | MDLM, LLaDA | Reference-based | ✗ | ✓ | ∼ | ✗ | ✗ | ∼ |
| Skip-to-Good-Part\[16 (https://arxiv.org/html/2605.10971#bib.bib12)\] | LLaDA, Dream | Probing / RSA | ✗ | ✗ | ∼ | ∼ | ✗ | ✗ |
| TDGNet\[19 (https://arxiv.org/html/2605.10971#bib.bib13)\] | LLaDA, Dream | Temporal graphs | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ |
| Ours | MDLM, SEDD, Dream, LLaDA | SAE (Top-K, 12–16K) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |

## 3 通过稀疏自编码器解释离散扩散 LMs

稀疏自编码器（SAEs）将密集激活分解为可解释特征的过完备字典\[12 (https://arxiv.org/html/2605.10971#bib.bib10),9 (https://arxiv.org/html/2605.10971#bib.bib8),36 (https://arxiv.org/html/2605.10971#bib.bib9)\]，并已被用于引导自回归 LMs\[18 (https://arxiv.org/html/2605.10971#bib.bib15),43 (https://arxiv.org/html/2605.10971#bib.bib20),10 (https://arxiv.org/html/2605.10971#bib.bib16),1 (https://arxiv.org/html/2605.10971#bib.bib14)\]\。SAEs 是否能有意义地分解 DLM 表示仍然研究不足。DLMs 提供了 AR 模型缺乏的结构优势：因为所有位置都随时间轨迹细化，语义特征*逐渐出现*，不同属性可能在不同去噪步骤中做出承诺，从而创建自然的干预点。对于多属性控制，属性可能通过时间重叠、效应大小不平衡或共享特征子空间相互作用，因此必须表征这些动态。在本节中，我们在涵盖不同目标、架构和规模的四个 DLMs 上训练 SAEs，并研究编码情感、主题和风格的特征如何演变和相互作用。

### 3.1 在离散扩散模型上训练 SAEs

我们在 MDLM\[32 (https://arxiv.org/html/2605.10971#bib.bib2)\]、SEDD\[20 (https://arxiv.org/html/2605.10971#bib.bib3)\]、LLaDA\[25 (https://arxiv.org/html/2605.10971#bib.bib6)\] 和 DREAM\[42 (https://arxiv.org/html/2605.10971#bib.bib4)\] 的残差流激活上训练 TopK 稀疏自编码器\[12 (https://arxiv.org/html/2605.10971#bib.bib10),45 (https://arxiv.org/html/2605.10971#bib.bib30)\]\。训练层是通过扩散 logits 透镜（§C.2 (https://arxiv.org/html/2605.10971#A3.SS2)\）和层探针研究（§C.3.2 (https://arxiv.org/html/2605.10971#A3.SS3.SSS2)\）选择的，这两者共同揭示了 token 身份在生成过程中何时以及何地结晶，并确定了最适合 DLMs 中 SAE 训练的层。给定隐藏状态 $\mathbf{x}\in\mathbb{R}^{d_{\text{model}}}$，SAE 将其编码到过完备潜空间（$d_{\text{SAE}}\gg d_{\text{model}}$），应用 TopK 激活以仅保留最大的 $k$ 个条目作为稀疏代码 $\mathbf{h}$，并通过学习到的解码器重建：

$$ \mathbf{h}=\mathrm{TopK}\!\bigl((\mathbf{x}-\mathbf{b}_{\text{dec}}),\mathbf{W}_{\text{enc}}+\mathbf{b}_{\text{enc}},\;k\bigr),\;\hat{\mathbf{x}}=\mathbf{h}\,\mathbf{W}_{\text{dec}}+\mathbf{b}_{\text{dec}}. $$

每个非零条目 $h_{j}$ 对应于一个*特征*，其解码器方向 $\mathbf{w}_{j}^{\text{dec}}$（$\mathbf{W}_{\text{dec}}$ 的第 $j$ 列）是它添加到残差流的方向。训练最小化 MSE 重建损失，并带有辅助死神经元损失（§C (https://arxiv.org/html/2605.10971#A3)\)\)。与 AR 模型不同，DLM 激活随掩码率变化，因此我们在均匀分布的掩码率采样的激活上进行训练，以确保在整个去噪轨迹上的泛化。表 2 (https://arxiv.org/html/2605.10971#S3.T2)\ 总结了所有模型和 SAE 配置。

表 2：模型和 SAE 摘要。所有 SAE 均使用 $k=32$ 的 TopK 激活。

| Model | Params | Arch. | Diffusion Loss | SAE Layers | $d_{\text{model}}$ | $d_{\text{SAE}}$ | $d_{\text{SAE}}/d_{\text{model}}$ |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| MDLM\[32 (https://arxiv.org/html/2605.10971#bib.bib2)\] | 124M | GPT-2\[28 (https://arxiv.org/html/2605.10971#bib.bib56)\] | Absorbing | 5, 6, 7 | 768 | 12,288 | $16\times$ |
| SEDD\[20 (https://arxiv.org/html/2605.10971#bib.bib3)\] | 124M | GPT-2 | Score-entropy | 5, 6, 7 | 768 | 12,288 | $16\times$ |
| LLaDA\[25 (https://arxiv.org/html/2605.10971#bib.bib6)\] | 8B | LLaMA\[38 (https://arxiv.org/html/2605.10971#bib.bib58)\] | Abso |

不破坏的引导：基于机制的离散扩散语言模型干预

相似文章

用于优化离散扩散语言模型的漂移目标

FineSteer: 大规模语言模型推理时细粒度控制的统一框架

GDSD：强化学习作为扩散语言模型的引导式降噪器自蒸馏

读取轨迹，引导路径：面向扩散语言模型的轨迹感知强化学习

ReflectDrive-2：面向离散扩散驾驶模型的强化学习对齐自编辑方法

提交意见反馈