掩码语言模型中Glauber Dynamics的混合时间
摘要
本文分析了使用Glauber dynamics的掩码语言模型中迭代掩码标记重采样所引发的全局分布行为。引入了一种用于不相容性的矩形检验,建立了混合时间界限,并通过实验展示了相变和亚稳态语义盆地。
arXiv:2605.16378v1 公告类型:新
摘要:掩码语言模型(MLMs)定义了令牌上的局部条件分布,但通常不对应于序列上的任何一致联合分布。这引出了一个基本问题:当这些条件分布被迭代用于生成时,会引发怎样的全局分布行为?我们通过将迭代掩码令牌重采样建模为令牌序列离散空间上的Glauber动力学马尔可夫链来解决这个问题。我们首先展示MLM条件分布本质上是不相容的:我们引入了一个矩形检验来证明这种不相容性,并通过实验验证了其在现代MLM中的普遍性。然后,我们对所诱导的马尔可夫链进行了理论分析。在有限的跨令牌影响下,我们建立了一个高温收缩结果,意味着$O(n\log n)$的混合时间,其中$n$是序列长度。相反,我们证明在均匀局部边际条件下,该链表现出亚稳态,在低温下以指数缓慢的速度从语义盆地中逃逸。在实验上,我们展示了混合行为随温度和序列长度变化的相变,与理论预测一致。我们进一步通过语义轨迹表征诱导的稳态行为,识别出持久结构,如长寿命陷阱和循环语义盆地,其中政治内容作为可衡量的案例研究。
查看缓存全文
缓存时间: 2026/05/19 06:42
# 掩码语言模型上 Glauber 动力学的混合时间
来源:https://arxiv.org/html/2605.16378 Suvadip Sana 统计与数据科学系 康奈尔大学 ss2776@cornell\.edu &Sami Wolf11footnotemark:1 康奈尔大学 smw362@cornell\.edu&Neer Mehta11footnotemark:1 康奈尔大学 nmm229@cornell\.edu&Alina Shah11footnotemark:1 康奈尔大学 ams877@cornell\.edu&Aitzaz Shaikh11footnotemark:1 康奈尔大学 ams845@cornell\.edu&Janna Goodman11footnotemark:1 康奈尔大学 jsg344@cornell\.edu&Lionel Levine22footnotemark:2 数学系 康奈尔大学 levine@math\.cornell\.edu
###### 摘要
掩码语言模型定义了 token 上的局部条件分布,但通常不对应于序列上任何一致的联合分布。这引出了一个根本性问题:当这些条件分布被迭代用于生成时,会诱导出怎样的全局分布行为?
我们通过将迭代掩码 token 重采样建模为 token 序列离散空间上的 Glauber 动力学马尔可夫链来回答这个问题。
我们首先证明 MLM 条件分布在本质上是不可兼容的:我们引入一个矩形测试来证明这种不兼容性,并在现代 MLM 上通过实验验证其普遍存在。
接着,我们对诱导出的马尔可夫链进行理论分析。在交叉 token 影响有界的条件下,我们建立了一个高温收缩结果,表明混合时间为 \(O(n \log n)\),其中 \(n\) 是序列长度。
相反,我们证明在均匀局部边界条件下,链条在低温下表现为亚稳态,从语义盆地中逃逸的速度呈指数缓慢。
在实验上,我们展示了混合行为随温度和序列长度变化的相变现象,与理论预测一致。
我们进一步通过语义轨迹刻画出诱导的平稳行为,识别出持久结构(如长寿命陷阱和循环语义盆地),并以政治内容作为可测量的案例研究。
## 1 引言
掩码语言模型如 BERT\[4 (https://arxiv.org/html/2605.16378#bib.bib2)\] 常用于自然语言理解任务,例如生成语义有意义的嵌入向量\[4 (https://arxiv.org/html/2605.16378#bib.bib2)\]、机器翻译\[3 (https://arxiv.org/html/2605.16378#bib.bib28)\]、情感分析\[19 (https://arxiv.org/html/2605.16378#bib.bib29)\] 和命名实体识别\[4 (https://arxiv.org/html/2605.16378#bib.bib2)\]。
然而,MLM 的全局属性(如模型偏差和结构吸引子)尚未被完全刻画。现有的 MLM 解释方法不足以捕捉全局结构。单个 token 的掩码预测忽略了多 token 依赖关系。伪对数似然评分\[17 (https://arxiv.org/html/2605.16378#bib.bib30)\] 被广泛使用,仿佛条件分布定义了一个联合分布;我们证明这是不合理的。静态嵌入上的线性探测\[10 (https://arxiv.org/html/2605.16378#bib.bib31),20 (https://arxiv.org/html/2605.16378#bib.bib32)\] 完全忽略了时间现象,例如我们在本工作中记录的亚稳态语义陷阱。
参见图注
图 1:BERT 上的 Glauber 动力学表现出亚稳态语义盆地。句子嵌入轨迹(10,000 步重采样)的 PCA 投影,颜色从暖色(早期)到冷色(晚期)。紧密的簇对应陷阱——链条在其中停留数百到数千步才逃逸的配置(§B.6 (https://arxiv.org/html/2605.16378#A2.SS6))。
初始:“The overnight train rattled through the mountains as thunder echoed across the empty valley.”
最终:“Greenville police say 2 sexual predators creeped on patients at Trinity Medical Center”
绘制这一景观的必要性不仅仅在于可解释性。虽然 MLM 历史上不用于独立的文本生成,但\[21 (https://arxiv.org/html/2605.16378#bib.bib9)\] 表明对这些模型进行吉布斯采样可以生成流畅的文本,并且许多现代离散扩散模型在去噪过程中涉及 MLM\[11 (https://arxiv.org/html/2605.16378#bib.bib33)\]。所用 MLM 的能量景观部分继承给了生成过程,这就提出了一个问题:MLM 中的语义偏差是否会传播到这些系统的输出中。随着文本生成扩散模型的发展持续加速,理解这些模型的隐藏结构对于流畅生成将变得越来越重要。
Glauber 动力学是一种单点马尔可夫链蒙特卡洛方法,最初用于研究伊辛模型\[6 (https://arxiv.org/html/2605.16378#bib.bib7)\],为这项研究提供了自然框架:每一步,随机选择一个 token 位置进行掩码,然后从 MLM 的条件分布中重采样。
迭代重采样揭示了两个引人注目的现象(图 1 (https://arxiv.org/html/2605.16378#S1.F1)、图 2 (https://arxiv.org/html/2605.16378#S1.F2)):链条会陷入亚稳态语义盆地长达数千步,并且忘记初始状态所需的时间经历与温度相关的转变。
我们做出四项贡献:
1. 1.**不兼容性**。我们开发了一个“矩形测试”,通过比较多 token 交换的路径依赖性来测量 MLM 条件分布的不兼容性。我们证明不兼容性是伪似然训练目标的固有结构伪影:它跨模型规模持续存在,并因 token 间的语义影响而放大。
2. 2.**混合理论**。我们建立了由 token 影响函数参数化的快速混合和慢速混合的可证明充分条件。具体而言,当高温下交叉点影响有界时,我们证明了混合时间的一个 \(O(n \log n)\) 上界。反之,在低温下,我们建立了一个指数级缓慢的低温下界,这是由均匀局部分数边界驱动的,该边界将链条困在亚稳态盆地中。我们使用漂移条件提供了一个经验认证的慢速混合盆地。
3. 3.**相变**。我们在实验上刻画了快速混合与慢速混合之间的边界如何依赖于温度和序列长度,并在 BERT 上验证了理论预测。
4. 4.**语义景观**。我们探测了长期动力学诱导的景观,揭示了语义陷阱和循环盆地。通过句子嵌入,我们追踪语义轨迹以可视化亚稳态行为。我们分析政治内容作为跨不同链条初始化的语义循环的可测量案例研究。
我们通过比较多种 MLM(包括 BERT\[4 (https://arxiv.org/html/2605.16378#bib.bib2)\]、RoBERTa\[12 (https://arxiv.org/html/2605.16378#bib.bib12)\] 和 ModernBERT\[22 (https://arxiv.org/html/2605.16378#bib.bib34)\])诱导的 Glauber 动力学来验证我们的方法。
参见图注
图 2:混合时间中的温度-长度相变。两条从独立 MS MARCO 段落初始化的链条在 RoBERTa-base 上以最大耦合方式演化。颜色:在 \(10^4\) 步预算内达到耦合的中位数步数。黑色:预算内未耦合。\(\tau \approx 1.5-2\) 附近从慢到快的边界与 §5 (https://arxiv.org/html/2605.16378#S5)、§6.1 (https://arxiv.org/html/2605.16378#S6.SS1) 中刻画的状态相符。
## 2 相关工作
##### 高维系统中的 Glauber 动力学与混合时间。
Glauber 动力学最初作为随机单点更新过程引入统计物理学,用于从吉布斯分布(特别是伊辛模型)中采样\[6 (https://arxiv.org/html/2605.16378#bib.bib7)\]。每一步选择一个坐标,并在给定其余变量的条件下重采样,从而产生一个目标吉布斯测度为平稳分布的马尔可夫链。Glauber 动力学及混合时间的理论分析在概率论、统计物理学和马尔可夫链蒙特卡洛方法中扮演着核心角色\[9 (https://arxiv.org/html/2605.16378#bib.bib4)\]。
##### 离散扩散与迭代去噪语言模型。
近年来,人们对用于离散文本生成的扩散和去噪方法的兴趣日益增长。结构化离散扩散模型\[1 (https://arxiv.org/html/2605.16378#bib.bib18)\] 通过分类破坏过程将去噪扩散概率模型推广到离散状态空间。Diffusion-LM\[11 (https://arxiv.org/html/2605.16378#bib.bib33)\] 展示了在连续潜在空间中使用扩散动力学进行可控文本生成的能力,而 DiffuSeq\[7 (https://arxiv.org/html/2605.16378#bib.bib35)\] 将扩散方法扩展到序列到序列生成任务。
最近的一些工作建立了扩散建模与掩码语言模型之间更强的联系。DiffusionBERT\[8 (https://arxiv.org/html/2605.16378#bib.bib36)\] 将扩散式去噪与 MLM 目标相结合,而 SEDD\[13 (https://arxiv.org/html/2605.16378#bib.bib37)\] 提出了基于比率的离散扩散建模用于文本生成。与我们设置最相关的是,掩码扩散语言模型\[16 (https://arxiv.org/html/2605.16378#bib.bib20)\] 表明迭代掩码去噪目标可以作为语言建模的有效生成机制。
总而言之,这些工作表明,迭代局部 token 精炼可能成为自回归生成的可行替代方案。
我们的工作与先前基于扩散的语言建模研究不同之处在于,我们不关注生成质量或可控性,而是关注 MLM 条件分布诱导的全局随机几何。具体而言,我们研究重复掩码 token 更新如何产生亚稳态语义区域、主题持续性以及跨序列空间的转移动力学。
##### 语言模型中的偏差、探测与表示分析。
大量工作研究了语言模型中的社会偏差和内部表示。早期研究通过基于人口统计身份的条件提示并分析下游情感或毒性,考察了生成文本中的人口统计和刻板印象偏差\[18 (https://arxiv.org/html/2605.16378#bib.bib3)\]。随后的基准测试如 CrowS-Pairs\[15 (https://arxiv.org/html/2605.16378#bib.bib38)\]、StereoSet\[14 (https://arxiv.org/html/2605.16378#bib.bib39)\] 和 RealToxicityPrompts\[5 (https://arxiv.org/html/2605.16378#bib.bib40)\] 评估了预训练语言模型中的刻板印象关联和有害生成行为。其他工作则聚焦于探测神经表示的内部结构\[2 (https://arxiv.org/html/2605.16378#bib.bib41)\]。
我们的工作与现有探测方法在两个重要方面有所不同。首先,我们不研究静态嵌入或单步生成,而是分析重复掩码 token 更新诱导的长期随机动力学。其次,我们不测量孤立的刻板印象或毒性分数,而是通过诱导马尔可夫链中的主题级别亚稳态和转移结构来研究全局语义行为。这种动力学系统视角将语言建模与统计物理学和马尔可夫链理论联系起来,为理解掩码语言模型中的全局结构和偏差提供了新的框架。
## 3 方法:文本 Glauber 动力学
### 3.1 状态空间与温度缩放局部条件分布
令 \(V\) 为有限词汇表,并令 \(X_n := V^n\) 表示长度为 \(n\) 的 token 序列集合。由于 \(V\) 是有限的,\(X_n\) 是有限的,且 \(|X_n| = |V|^n\)。当 \(n\) 固定时,我们记作 \(X\)。
对于 \(x = (x_1, \dots, x_n) \in X\) 和 \(i \in [n] := \{1, \dots, n\}\),记 \(x_{-i} := (x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_n)\)。
假设掩码语言模型为每个位置 \(i\) 和上下文 \(x_{-i}\) 诱导一个严格正的条件分布 \(p_\theta(\cdot \mid x_{-i}) \in \Delta(V)\)。
给定温度 \(\tau > 0\),假设存在局部分数 \(s_i(a; x_{-i}) \in \mathbb{R}, a \in V\),它们诱导温度缩放条件分布
\[
p_{\theta, \tau}(a \mid x_{-i}) := \frac{\exp\left(s_i(a; x_{-i}) / \tau\right)}{\sum_{b \in V} \exp\left(s_i(b; x_{-i}) / \tau\right)} .
\]
### 3.2 Glauber 动力学链
给定 \(x \in X\),定义单点更新链,其转移核为
\[
P_\tau(x, x') = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{\{x_{-i} = x'_{-i}\}} \, p_{\theta, \tau}(x_i' \mid x_{-i}).
\]
等价地,从 \(x\) 出发,均匀随机选择一个位置 \(i \in [n]\),然后从 \(p_{\theta, \tau}(\cdot \mid x_{-i})\) 中对 \(x_i\) 进行重采样。
###### 命题 1。 对每个 \(\tau > 0\),\(P_\tau\) 是 \(X\) 上的一个马尔可夫核。如果对所有的 \(i, x_{-i}, a\) 都有 \(p_{\theta, \tau}(a \mid x_{-i}) > 0\),则 \(P_\tau\) 是不可约且非周期的。所有命题、引理和定理的详细证明见附录 E (https://arxiv.org/html/2605.16378#A5)。
###### 推论 2。 如果对所有的 \(i, x_{-i}, a\) 都有 \(p_{\theta, \tau}(a \mid x_{-i}) > 0\),则 \(X\) 上存在唯一的平稳分布 \(\mu_\tau\),并且对每个 \(x \in X\),当 \(t \to \infty\) 时,\(P_\tau^t(x, \cdot) \to \mu_\tau\)。
## 4 MLM 条件分布的不兼容性
我们通过展示在相同上下文下两个采样结果的相对概率不必与它们在平稳分布 \(\mu_\tau\) 中的相对突出性相匹配,来激发将 Glauber 动力学作为 MLM 结构的探测工具。
###### 定义 1。 \(X\) 上的分布 \(\pi\) 与局部条件分布是 *兼容* 的,如果对于每个 \(i\)、每个上下文 \(x_{-i}\) 和每个 \(a \in V\)(满足 \(\pi(X_{-i} = x_{-i}) > 0\)),有
\[
\pi(X_i = a \mid X_{-i} = x_{-i}) = p_{\theta, \tau}(a \mid x_{-i}).
\]
###### 定理 3。 如果存在一个兼容分布 \(\pi\),则 \(\pi\) 是 \(P_\tau\) 的平稳分布,且 \(P_\tau\) 关于 \(\pi\) 是可逆的。
兼容性意味着单掩码探测可以直接读出平稳比率:对于 \(x_a = (x_{-i}, a)\) 和 \(x_b = (x_{-i}, b)\),有
\[
\frac{p_{\theta, \tau}(a \mid x_{-i})}{p_{\theta, \tau}(b \mid x_{-i})} = \frac{\pi(x_a)}{\pi(x_b)}. \tag{4.1}
\]
如果不兼容,单掩码探测揭示的偏差可能与迭代生成下表现出的偏差不同。我们现在证明,对于使用伪对数似然目标训练的 MLM,不存在兼容分布。
##### 矩形测试。
固定一个序列 \(x\) 和两个位置 \(i \neq j\),当前 token 为 \(A = x_i, B = x_j\),替换为 \(A', B'\)。定义仅在位置 \(i\) 和/或 \(j\) 处不同的四个状态:
\[
x = (\ldots, A, \ldots, B, \ldots), \quad y = (\ldots, A', \ldots, B, \ldots), \quad w = (\ldots, A, \ldots, B', \ldots), \quad z = (\ldots, A', \ldots, B', \ldots).
\]相似文章
Masked Diffusion Language Models 是强大且可操控的基于文本的世界模型,用于智能体强化学习 [R]
本文提出将 Masked Diffusion Language Models (MDLMs) 作为基于文本的世界模型用于智能体强化学习,表明其任意顺序去噪目标避免了前缀模式崩溃,并且相比自回归基线模型带来了更强的性能。
重掩码,而非替换:掩码扩散语言模型中的 Token-to-Mask 精修
提出 Token-to-Mask(T2M)重掩码,在掩码扩散 LM 中通过将可疑 token 重置为掩码状态而非直接覆盖来修正生成错误,在 CMATH 上最高提升 5.92 准确率,无需额外训练或参数。
Semantic DLM+:通过转移核设计中的偏差-方差权衡改进扩散语言模型
本文从偏差-方差角度对扩散语言模型进行了理论分析,识别了掩码扩散与均匀扩散核之间的权衡。提出了SemDLM+,通过添加全局转移和语义频率惩罚来克服语义盆地问题,在LM1B和OpenWebText基准上实现了有竞争力的生成质量。
DLLM-JEPA:面向掩码扩散语言模型的联合嵌入预测架构
介绍了DLLM-JEPA,这是一种针对掩码扩散语言模型的JEPA公式,通过扩散噪声调度从单个输入构建两个视图,相比LLM-JEPA减少了33%的训练FLOPs,并在GSM8K等任务上提升了微调性能。
通过熵门控连续比特流扩散缩小语言建模中的自回归差距
本文介绍了一种扩散语言模型,将文本视为二进制比特流上的连续过程,利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果,同时降低了内存占用。