FAIR-Calib:面向扩散大语言模型训练后量化的前沿感知不稳定性重加权校准
摘要
本文提出了FAIR-Calib,一种用于扩散大语言模型的两阶段训练后量化框架,解决了迭代精炼过程中令牌提交的不稳定性问题。在低比特量化下,它在LLaDA和Dream模型上取得了最先进的结果。
arXiv:2606.06547v1 Announce Type: new
摘要:扩散大语言模型(dLLMs)迭代地精炼令牌,但会不可逆地提交它们,导致出现“稳定性滞后”,早期决策即使在写入后仍然脆弱。我们发现训练后量化(PTQ)误差容易在写入前沿翻转这些边界决策,这些决策随后被永久锁定并放大。为解决此问题,我们提出了前沿感知不稳定性重加权校准(FAIR-Calib),一种用于dLLMs的两阶段PTQ框架。第一阶段探测一个全精度教师模型,以估计一个结合前沿命中与掩码阶段可靠性的位置先验。第二阶段执行离策略的逐层校准,通过最小化重加权隐藏状态均方误差,有效优先保护脆弱的前沿状态,而无需昂贵的端到端扩散展开。我们进一步从理论上证明了我们的加权目标是输出KL散度的替代项。实验上,FAIR-Calib在LLaDA和Dream(W4A4)上持续超越最先进的基线模型,显著减少前沿决策翻转并抑制各种基准测试中的提交后不匹配。
查看缓存全文
缓存时间: 2026/06/08 09:16
# FAIR-Calib:面向扩散大语言模型训练后量化的前沿感知不稳定性重加权校准
来源:https://arxiv.org/html/2606.06547
杨林林 \ 徐胜 \ 刘博宇 \ 郭国栋 \ 付忠谦 \ 周航 \ 张宝昌
###### 摘要
扩散大语言模型(dLLMs)迭代地优化 token,但一旦提交(commit)就不可逆,导致一种“稳定性滞后(stability lag)”,即早期决策即使被写入后仍然脆弱。我们发现,训练后量化(PTQ)误差容易在写边界处翻转这些临界决策,这些错误随后被永久锁定并放大。为了解决这个问题,我们提出了*前沿感知不稳定性重加权校准*(*FAIR-Calib*),这是一个用于 dLLMs 的两阶段 PTQ 框架。第一阶段探测全精度教师模型,以估计一个结合了写边界命中(frontier hits)和掩码阶段可靠性(masked-stage reliability)的位置先验。第二阶段通过最小化重加权的隐藏状态 MSE 来执行离策略(off-policy)的逐层校准,有效优先保护脆弱的写边界状态,而无需昂贵的端到端扩散 rollout。我们进一步从理论上证明,我们的加权目标是输出 KL 散度的一个代理(surrogate)。实验结果表明,FAIR-Calib 在 LLaDA 和 Dream (W4A4) 上持续优于现有基线,显著减少了写边界决策翻转,并抑制了各种基准上的提交后不匹配。
训练后量化,扩散语言模型,大语言模型
## 1 引言
参照图注图 1:\(a\) 示意图:朴素量化扰动了相对 logits 并永久提交了错误的 token,突显了当前量化方法在扩散解码下的一种关键失败模式。\(b\) 生成区域中稳定性滞后 \(\delta_{\text{lag}}\) 的互补累积分布函数(CCDF)(\(N_{\text{samples}}=32\))。尽管大多数位置在提交后不久就稳定下来,但 heavy tail 表明存在*脆弱的提交状态*,它们在提交后仍持续振荡,表明提交(commitment)\(\neq\) 稳定。校准后的基线比 FP 表现出更重的 tail,意味着标准校准并未消除脆弱性。\(c\) 相对于 FP 的解码散度(度量:\(\mathrm{mse\_prob}\))随扩散步的变化。一旦发生错误提交(红色标记),基线显示出逐步的、逐级的误差放大,表明微小的局部扰动可以触发后续步骤中持续的散度。
基于 Transformer 的大语言模型在数百亿参数规模上实现了显著的泛化和指令遵循能力,例如 LLaMA(Touvron et al., 2023)和 Qwen(Yang et al., 2025)模型系列。
最近,扩散大语言模型(dLLMs)作为自回归解码的一种有前景的替代方案出现,通过预先初始化整个响应序列并使用双向注意力在多个步骤中对其进行去噪,提供迭代优化和灵活的填充(Nie et al., 2025; Zhu et al., 2025; Ye et al., 2025)。这种迭代掩码优化在概念上与早期的非从左到右解码范式相关(Ghazvininejad et al., 2019; Stern et al., 2019; Chang et al., 2022)。然而,这种多步全局优化显著增加了推理时的计算和内存开销,使得训练后量化(PTQ)对实际部署至关重要(Frantar et al., 2022; Frantar and Alistarh, 2023; Xiao et al., 2023; Lin et al., 2024; Ashkboos et al., 2024; Sun et al., 2024)。
然而,量化 dLLMs 并不是自回归 PTQ 的直接扩展:Lin et al. (2025) 系统地将经典的低比特 PTQ 从自回归 LLM 转移到 dLLM,并发现简单迁移在具有挑战性的推理任务上显著退化。我们将这种脆弱性归因于扩散特有的推理机制:dLLM 解码通过重复预测所有位置的 token 分布,并将掩码位置的一个子集*去掩码*为具体 token,逐步减少掩码集。我们将这种不可逆的写入称为*提交(commit)*。这种*不可逆性*意味着一旦一个 token 被写入,它就成为了条件上下文的一部分,并且无法修改,即使模型对该位置的后验信念仍在继续演变。因此,解码过程在扰动下变得特别脆弱:如图 1\(a\) 所示,量化扰动可以轻易地在写边界处翻转一个临界决策,产生一个被*永久锁定*的错误。
我们将这种脆弱性追溯到一个根本的不匹配:提交(commitment)\(\neq\) 稳定(stabilization)。如图 1\(b\) 所示,即使在完全精度下,许多位置也表现出显著的*稳定性滞后* \(\delta_{\text{lag}}\)。我们将 \(\delta_{\text{lag}}\) 定义为在第一次不可逆提交之后,直到模型的前 1 预测与后续所有步骤的最终解码 token 保持一致所需的扩散步数。这意味着许多位置在提交后很长一段时间内,其 top-1 预测仍会持续振荡。该分布的 heavy tail 揭示了一个不可忽视的*脆弱提交状态*子集,在这些状态中,决策仍然对上下文敏感,并且在提交后可能继续振荡。PTQ 方法中的标准校准加剧了这个问题,延长了不稳定性,并使更多位置暴露于上述不可逆的翻转。关键的是,这些被锁定的翻转并非孤立存在;相反,它们可能导致生成质量的严重下降。由于错误的 token 被固定为上下文,它迫使模型基于该错误来优化后续 token。图 1\(c\) 证实了这一轨迹:一旦在脆弱的写边界发生错误提交(红色标记),与教师模型的偏差并不会消失,而是在后续的优化步骤中经历*逐步的、逐级的放大*,严重降低生成质量。
为了解决这些挑战,我们提出了*前沿感知不稳定性重加权校准*(*FAIR-Calib*)框架用于 dLLM 量化。我们的框架包括两个协同阶段:(i)*教师探测*:我们利用全精度教师模型来估计一个位置感知先验。该先验独特地整合了写边界不可逆性(在提交时提高位置权重)和掩码阶段可靠性(考虑教师置信度)。我们表明,该先验很大程度上是机制驱动的,并表现出鲁棒的跨语料库可迁移性。(ii)离策略加权校准:我们使用估计的权重执行高效的逐层隐藏状态对齐。通过采用教师强迫代理(teacher-forcing surrogate),FAIR-Calib 避免了昂贵的端到端扩散 rollout,同时有效稳定了写边界。实验结果表明,FAIR-Calib 显著减少了写步决策翻转和提交后不匹配,包括“平均不一致(mean-disagree)”和“从未一致(never-agree)”两种情况。此外,我们的方法成功缓解了通常由错误提交触发的顺序误差放大,改进的概率-MSE 轨迹证明了这一点。我们在本文中的主要贡献总结如下:
- • 我们识别并量化了在*脆弱提交状态*下由*不可逆提交*引起的 dLLM 解码脆弱性,其中低比特量化翻转了临界写决策,由此产生的错误在优化步骤中被锁定并放大。
- • 我们提出了 **FAIR-Calib**,一个用于 dLLMs 的两阶段 PTQ 框架(图 2):第一阶段探测 FP 教师模型以估计一个*写边界感知、可靠性门控*的位置先验,第二阶段通过加权隐藏状态 MSE 执行*离策略*的逐层教师强迫校准,避免了昂贵的扩散 rollout。
- • 我们在温和假设下证明了加性时间 × 位置权重及其加权隐藏状态 MSE 代理的合理性,并在多个基准上展示了在 Dream/LLaDA 上一致的 W4A4 提升,具有更少的教师强迫提交步翻转、减少的提交后不匹配和抑制的误差放大。
参照图注图 2:**FAIR-Calib 概述**。第一阶段探测 FP 教师模型以估计一个固定的位置先验 \(\bar{w}\),该先验突出了不可逆提交位置和掩码阶段可靠性。第二阶段使用 \(\bar{w}\) 加权的隐藏状态 MSE 执行逐层教师强迫校准,以在不使用扩散 rollout 的情况下获得 W4A4 模型。
## 2 相关工作
### 2.1 扩散语言模型
扩散模型通过分类变量的去噪扩散被推广到离散状态空间(Austin et al., 2021)。后续工作通过迭代去噪 token 序列或潜在表示探索了扩散式文本生成,实现了具有全局修正的非从左到右生成(Li et al., 2022; Gong et al., 2022)。这种优化观点也与早期的迭代解码范式相关,这些范式反复修正低置信度位置(Ghazvininejad et al., 2019; Stern et al., 2019; Chang et al., 2022)。最近,扩散*大型*语言模型通过用掩码初始化答案窗口并使用双向注意力在多个步骤中对其进行去噪,将掩码优化扩展到 Transformer LLM(Nie et al., 2025; Zhu et al., 2025; Ye et al., 2025)。虽然它们实现了灵活的填充,但其逐步的*提交*和长视界优化增加了推理成本,并为压缩(如 PTQ)引入了新的脆弱模式。
### 2.2 大语言模型的训练后量化
训练后量化(PTQ)通过使用一个小型校准集量化权重和/或激活来压缩预训练的 LLM(Zhu et al., 2024)。基于重构的 PTQ 显式地相似文章
面向大语言模型的显著性感知正则化量化校准
本文提出了显著性感知正则化量化校准(SARQC),这是一个统一的框架,通过添加正则化项以保持权重接近度,从而改善大语言模型(LLM)的训练后量化(PTQ),提升泛化能力和性能。
检索增强的语言校准
本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。
可学习性引导的扩散语言模型微调
我们提出LIFT,一种可学习性引导的扩散语言模型微调算法,该算法根据 token 难度和时间步对齐训练,在推理基准测试上取得了显著提升。
Tail-Aware HiFloat4: 面向Wan2.2的W4A4训练后量化
本文介绍了Tail-Aware HiFloat4,这是一种针对Wan2.2文本到视频扩散模型的W4A4训练后量化方法,该方法采用激活尾感知百分位校准来缓解异常值的影响,同时保持HiFloat4算术运算不变。
大型语言扩散模型的不确定性量化
本文首次系统研究了大型语言扩散模型(LLDMs)的不确定性量化(UQ),提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号,并表明LLDMs能够在实现快速推理的同时,提供可靠的幻觉检测,与基于采样的基线方法相比,计算开销降低高达100倍。