当Top-1失效时：为掩码扩散语言模型校准LoRA监控器

arXiv cs.LG 2026/06/24 04:00 论文

diffusion-language-models lora fine-tuning calibration collapse-detection gradient-norm peft

摘要

本文研究了top-1崩溃率作为短视界LoRA微调离散扩散语言模型的稳定性监控器的有效性，发现其精度为零，并提出最大梯度范数作为更可靠的替代方案，在LLaDA系列模型上具有更高的精度和F1分数。

arXiv:2606.24119v1 公告类型：新增摘要：离散扩散语言模型（DLM）微调继承了去噪时间置信度监控器的廉价诊断方法，但其PEFT训练意义尚未得到检验。我们测试了top-1 argmax集中度作为崩溃警告。在来自三个DLM家族的816个LoRA/PEFT配置中，警告在每个配置中都触发，而日志记录显示在200步视界内实际崩溃为0/816，导致精度为零。原因是预平衡饱和：top-1集中度在优化前已经很高，并很快对最终训练稳定性变得不敏感。然后我们评估了最大LoRA梯度范数，这是一种参数侧信号，采样梯度路由而非令牌集中度。在合并的保留LLaDA家族数据分割上，经过训练优化的阈值识别出最终损失最高的十分位数配置，精度为0.68，F1=0.79，即使在下限分割自助置信区间下也高于全阳性top-1基线。自回归控制和跨家族阈值失败将结果限制为短视界DLM-LoRA检查，而非通用崩溃检测器。工作流程：放弃top-1作为PEFT警报，在训练早期记录最大梯度，并在路由运行检查前为每个DLM家族校准阈值。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:50

# 为掩码扩散语言模型校准 LoRA 监控器
来源：https://arxiv.org/html/2606.24119
Lucky Verma 独立研究员 luckyv1@umbc\.edu & Pratik Yadav 马里兰大学巴尔的摩郡分校 pratiky1@umbc\.edu

###### 摘要

离散扩散语言模型（DLM）微调从去噪时的置信度监控器中继承了廉价的诊断方法，但其在 PEFT 训练中的意义尚未得到检验。我们测试了 top-1 argmax 集中度作为崩溃预警信号。在来自三个 DLM 系列的 816 个 LoRA/PEFT 配置中，该预警在每个配置中均触发，而日志记录在 200 步范围内实际崩溃为 0/816，导致零精度。原因是预平衡饱和：top-1 集中度在优化前已经很高，并迅速对最终训练稳定性变得不敏感。然后我们评估了最大 LoRA 梯度范数，这是一种参数侧信号，用于采样梯度路由而非 token 集中度。在池化的 LLaDA 家族留出集上，训练优化的阈值以精度 0.68 和 F1=0.79 识别出前十分位最终损失配置，高于全正 top-1 基线，即使在较低的拆分自助法置信区间下也是如此。自回归对照和跨家族阈值失效将该结果限定为短视界 DLM-LoRA 检查，而非通用崩溃检测器。工作流程：放弃 top-1 作为 PEFT 预警，在训练早期记录最大梯度，并在将运行路由至检查之前，按 DLM 系列校准阈值。

当 Top-1 失效时：为掩码扩散语言模型校准 LoRA 监控器

Lucky Verma 独立研究员 luckyv1@umbc\.edu & Pratik Yadav 马里兰大学巴尔的摩郡分校 pratiky1@umbc\.edu

参见标题（Figure 1）：转移的 top-1 预警精度为零，而最大梯度为 LLaDA 家族提供了一种分级信号。(A) 在 816 个 DLM PEFT 配置中，top-1 预警在每个配置中触发，观察到的崩溃为 0/816；AR 对照有 0/360 次崩溃，且根据定义不触发 top-1 预警。(B) LLaDA 家族 DLM 队列中稳定与不稳定最大梯度效应量较大（在源尺度方法比较集上为 3.23× 和 362×，以及 1.48×；Mann–Whitney U 检验，Bonferroni 校正 m=6，自助法置信区间），而 AR 对照效应量较小或不可移植。(C) 在固定的 LLaDA 家族留出集上（n=671），最大梯度精度为 0.68，拆分自助法 95% CI [0.500, 0.947]，而全正 top-1 基线上限为 0.148（召回率 0.94，F1=0.79）。

## 1 引言

离散扩散语言模型（DLM）(Nie et al., 2025; Sahoo et al., 2024; Ye et al., 2025）通过迭代去噪从完全掩码的序列重建，使用双向上下文而非从左到右的预测。随着 DLM 检查点和微调方案普及 (Zhang et al., 2024, 2026; Wu et al., 2026; Kuiper et al., 2025; Yang et al., 2026)，从业者需要低成本监控器来监督短周期的 LoRA 训练。一个诱人的候选信号已由受审计的 DLM 运行器暴露：top-1 崩溃率，衡量 argmax 预测是否集中在少量 token 词汇上。此信号用于去噪/重新掩码诊断，但其在短视界 PEFT 下的意义尚不清楚。我们直接测试其迁移性：top-1 崩溃能否作为 PEFT 稳定性预警？如果不能，什么家族本地的监控器对检查更有用？

这种迁移失败了。在覆盖三个 DLM 模型家族、816 个 DLM PEFT 配置（LLaDA 家族，四个队列，n=671；Dream-7B 边界队列，n=100；MDLM-OWT 130M 边界队列，n=45）中，预警在 816/816（100%）配置中触发，而实际训练崩溃（由同一训练循环的“崩溃”标志记录）在 200 步范围内为 0/816（0%）。该诊断精度为零。匹配的 AR 对照（Pythia 410M, 1B, 2.8B, 6.9B 和 Qwen3.5-9B，共 360 个审计配置；附录 C）也显示 0/360 次实际崩溃，因此结果并非通用掩码 CE 崩溃现象。预警无法迁移到测试的 DLM-LoRA PEFT 设置中。

这一失败有可测的解释。在相同的 671 个配置中，top-1 token 频率在训练步 0 时为 0.83±0.13；每个配置已经高于 0.5，中位数配置在 4 个优化步骤内超过 0.95，而传统的触发步骤与稳定性无关（Mann–Whitney U: p=0.20 不显著；图 3）。在最坏秩-放大角落的参数侧检查提供了互补证据：每个 token 的 CE 梯度仅适度集中（Gini 0.29，最大评估 token 位置 CE 梯度份额 1.5%），而 LoRA 参数梯度集中（Gini 0.46，一个矩阵承载了 63.0% 的梯度质量；附录 D）。Top-1 跟踪 token 侧的预平衡饱和；最大梯度范数采样参数侧的路由，该路由区分稳定和不稳定运行。

我们使用 Mann–Whitney U 检验和 Bonferroni 校正（m=6）评估了最大梯度范数作为家族本地分级信号在六个可分析家族中的表现。在 LLaDA2.0-mini 上（n=144），不稳定配置的中位最大梯度范数是稳定配置的 3.23×（p_Bonf=2.7×10^{-7}，自助法 95% CI [2.76, 3.97]）；在方法比较集上（n=395），比率为 362×（稳定中位 99.3 与不稳定中位 35,960.4 在源尺度上；p_Bonf=5×10^{-21}，CI [202, 779]）。关键检查是留出性能。在 671 配置 LLaDA 家族语料库的固定 80/20 拆分上，基于训练配置选择的阈值在留出配置上预测前十分位最终损失，精度为 0.68，召回率 0.94，F1=0.79，而在此固定拆分上全正 top-1 基线精度为 0.13。单独的拆分自助法给出 95% CI [0.500, 0.947]，与拆分自助法基线上限 0.148 不重叠；每个自助法复制重新采样配置、重新绘制训练/测试拆分并重新在训练集上选择阈值；即使下限 CI 也超过基线的 3×，支持的使用案例是检查和路由而非高精度门控（限制）。另外，B=200 随机拆分步长 k 扫描显示最大梯度精度从约步骤 25 开始稳定，而步长损失是非单调的：损失在步 11 对于极端高损失配置更强，但在步 25–100 时落后于最大梯度（附录 B.1）。跨家族阈值不可迁移；校准按家族进行，而非全局常数。

DLM-LoRA 分级工作流程。审计的工作流程分为三步：在此视界内放弃 top-1 作为 PEFT 警报；在约步骤 25 时记录最大梯度；在将高梯度配置路由到检查或单独验证的后续扫描之前，按 DLM 家族校准阈值。现有数据得出三个发现：top-1 在此视界内不是 PEFT 警告；最大梯度是 LLaDA 家族运行内的家族本地检查触发器；掩码比率应逐模型调整，而非作为单一操作窗口导出。在掩码比率保留探测中，掩码比率是最强的低成本协变量；最大梯度是受支持的早期检查信号，同时将掩码比率设计作为独立的调整轴。

#### 贡献。

1.  一项 816 配置的反驳：top-1 在 816/816 的 DLM PEFT 配置中触发，而实际崩溃为 0/816（§4.1）。
2.  一个双层饱和特征描述，解释了预警为何失败，包括 token 侧预平衡饱和和参数侧梯度路由证据（§4.5）。
3.  一个家族校准的最大梯度分级协议，在池化 LLaDA 家族语料库上留出精度 0.68（CI [0.500, 0.947]）（§4.1）。
4.  十三个证伪探测和匹配的 AR 对照，将主张限定于短视界 DLM-LoRA PEFT（附录 D）。

稿件数值通过本地运行清单、声称摘要和验证摘要进行源映射；公开的论文源、参考脚本以及支持图表和表格的清理聚合结果工件已在 GitHub 仓库发布。

## 2 背景

### 2.1 离散扩散语言模型

离散扩散语言模型（DLM）通过向 token 序列添加离散噪声（以速率 ρ 掩码 token）并学习从噪声输入重建原始 token 进行训练。在推理时，DLM 在 T 步内迭代去噪一个完全掩码的序列，每一步使用双向注意力（Nie et al., 2025; Sahoo et al., 2024）。我们将掩码扩散训练目标写为我们实现中使用的逐掩码 token 形式：

L(θ) = -E_{t, x_t} [ 1/|M_t| ∑_{i ∈ M_t} log p_θ(x_0^i | x_t) ],  (1)

其中 M_t = {i: x_t^i = [MASK]}，x_0^i 是位置 i 的干净 token。这与 AR 的 next-token 预测有根本不同。梯度信号的密度随 ρ 变化，预测熵随联合预测的 token 数量增长，这共同驱动了我们在第 4 节中描述的秩-掩码交互。1

1我们在标准 HuggingFace + PEFT 栈上运行 LLaDA/Dream 的 LoRA 时遇到了五种静默故障模式（损失 API 返回 None、生成 API kvcache 断言、目标模块自动检测、Dream 模型类加载器、Dream 注意力掩码 dtype）。即插即用修复见附录 A；公开工件链接见附录 A。

## 3 方法

### 3.1 正确的训练目标

标准 HuggingFace PEFT 训练假定模型内部监督损失，但 LLaDA 风格的 DLM 前向传递仅返回 logits，因为调用者定义掩码分布。遵循 Sahoo et al. (2024)，我们外部掩码 token 并使用公式 (1)，损失仅在掩码位置上计算。附录 A 给出了重现此目标所需的即插即用 API 修复。

### 3.2 实验设置

#### 模型。

我们评估 LoRA 微调在三种角色中的表现。LLaDA 家族 DLM 提供主要的 top-1 反驳和最大梯度分离；Pythia/Qwen 因果模型在匹配的掩码 CE 下作为诊断对照；Dream、MDLM-OWT 和 LLaDA-MoE 运行作为边界队列。主要的 DLM 设置是：

- • LLaDA-8B-Instruct (Nie et al., 2025)：8B 参数掩码扩散 LM。掩码 token ID: 126336。架构：LLaDAModel（自定义，非标准 HF）。
- • LLaDA2.0-mini (Bie et al., 2025)：15.93B MoE 掩码扩散 LM。掩码 token ID: 156895。此模型提供 60 配置的秩 × 掩码曲面和 2×2 任务性能因子设计。
- • Dream-7B (Ye et al., 2025)：7B 参数掩码扩散 LM。通过 AutoModel 加载。需要布尔注意力掩码。

#### LoRA 配置。

所有主要 DLM 运行仅适配注意力投影（q_proj, k_proj, v_proj, o_proj）。LLaDA2.0-mini 曲面使用秩 {4,8,16,32,64} 和 12 个掩码比率，范围 ρ∈[0.05,0.95]；任务性能因子设计使用秩 {4,64} 和掩码 {0.40,0.90}，每个配置 3 个种子；操作单元方法比较（附录 E）使用 n=10 个种子每方法，学习率由 α 扫描选择。较旧的 LLaDA-Instruct 试点使用较粗的 5×4 网格 ρ∈{0.3,0.5,0.7,0.9}；Dream-7B 试点使用学习率解析的秩 × 掩码网格，如附录 C 所述。

#### 训练。

短试点运行使用 30-40 步进行 API 验证；LLaDA2.0-mini 曲面使用 200 步，lr=10^{-4}（作为观察前缀诊断报告，因为传统 top-1 检测器在所有 60 条轨迹上在步 11 提前停止）。2×2 因子设计使用 1000 步，在包含 152 个手写算术示例的语料库上（20 个保留提示），报告为掩码 CE 收敛证据；生成质量评估与此诊断主张分离。批次大小 4，AdamW，梯度范数在裁剪前记录（阈值 0.5）。LLaDA2.0-mini 运行在 H100 NVL (96GB) 工作站上；试点在 CHIP HPC (UMBC) NVIDIA L40S (48GB) 上。实现：HuggingFace transformers (Wolf et al., 2020) + PEFT (Mangrulkar et al., 2022)。梯度范数是可训练 LoRA 参数的全局 l2 范数。跨模型家族使用家族规范超参数（LLaDA lr=10^{-4} 有效批次 64；Dream 默认 lr=2×10^{-6}；MDLM-OWT lr=10^{-4} 批次 1）；816/816 触发率是在这些家族特定设置下的经验汇总，而非超参数不变性证明（附录 C）。

#### 关于 AR 基线的范围说明。

两个 AR 对照扮演不同角色。**训练栈健全性**：Mistral-7B LoRA 基线在标准 next-token 交叉熵下（附录 A）验证实现本身并非不稳定来源。**掩码 CE 对照**：Pythia-1B (Biderman et al., 2023) 在相同 5×12 网格上（180 次运行，n=3 个种子，§4.3）测试损失 vs 架构的混淆，通过固定损失同时变化架构和预训练；Qwen3.5-9B (Qwen Team, A)

当Top-1失效时：为掩码扩散语言模型校准LoRA监控器

相似文章

采样更多，获得更少：校准是大语言模型多样性的瓶颈

FAIR-Calib：面向扩散大语言模型训练后量化的前沿感知不稳定性重加权校准

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

Hybrid-LoRA：桥接全微调与低秩适应的后训练方法

超越Mode-Seeking RL：扩散语言模型的轨迹平衡后训练

提交意见反馈