简化自然语言中任意条件建模
摘要
提出 ac-gpt,一种对因果Transformer的简单修改,使其能够在单个前向传递中评估和采样任意条件(过去、未来、混合),同时保持从左到右的顺序和下一个词预测,从而允许现有LLM微调用于任意条件建模。
arXiv:2606.14943v1 公告类型:新
摘要:因果Transformer通过自回归分解联合分布来建模序列,从而支持高效的从左到右解码和条件似然计算。然而,它们无法以可处理的方式采样或评估任意条件——例如,基于过去和未来词元的文本块。最近的工作试图通过新颖架构解决此问题,但往往导致对此类条件建模次优以及生成质量下降。我们提出任意条件GPT(AC-GPT),它对标准因果Transformer引入一个简单修改,使得在单个前向传递中能够评估和采样任意条件——包括过去、未来和混合上下文。与先前方法不同,我们的方法保留了标准的从左到右顺序和下一个词预测目标,这对于自然语言的强性能和高效训练至关重要。关键的是,这种兼容性允许现有LLM微调用于任意条件建模。我们的实验结果表明,我们的方法在建模任意条件方面优于基线,且不降低标准的从左到右性能。
查看缓存全文
缓存时间: 2026/06/16 11:44
# 简化自然语言中任意条件概率的建模
来源:https://arxiv.org/html/2606.14943
Yinhan Lu∗,1,2,, Eric Elmoznino∗,1,3, Léo Gagnon1,3,Sarthak Mittal1,3,Tejas Kasetty1,3,Guillaume Lajoie1,3
1Mila — Quebec AI Institute,2麦吉尔大学,3蒙特利尔大学
###### 摘要
因果Transformer通过自回归分解联合分布来建模序列,这使得高效的从左到右解码和条件概率计算成为可能。然而,它们无法高效地采样或评估任意条件概率——例如,一段文本同时以过去和未来标记为条件。最近的工作试图通过新颖的架构来解决这个问题,但通常会导致对此类条件概率的次优建模以及生成质量下降。我们提出**ArbitraryConditionalsGPT**(ac-gpt),它对标准因果Transformer引入了一个简单的修改,使其能够在单次前向传播中评估和采样任意条件概率——包括以过去、未来和混合上下文为条件。与先前的方法不同,我们的方法保留了标准从左到右的顺序和下一个标记预测目标,这对于自然语言上的强大性能和高效训练都是必不可少的。至关重要的是,这种兼容性允许对现有的大语言模型进行微调以实现任意条件建模。我们的实证结果表明,我们的方法在建模任意条件概率方面优于基线,并且不会降低标准的从左到右性能。
## 1 引言
最先进的大语言模型(LLMs)的工作原理是根据过去的标记预测序列中的下一个标记。因果Transformer——语言建模中最成功且最广泛使用的架构——通过在单次前向传播中按照从左到右的因子分解评估序列的联合似然来高效实现这一点(Radford等人,2019 (https://arxiv.org/html/2606.14943#bib.bib1))。由于其从左到右的结构,这些模型还能评估和采样按时间排序的条件概率,即未来标记以过去标记为条件的似然, p(**x**>t | **x**≤t)。然而,评估由任意观测标记集 **x**_c 定义的任意条件概率 p(**x**_e | **x**_c),将对应于一个难解的积分(Hu等人,2024 (https://arxiv.org/html/2606.14943#bib.bib3))。
任意条件概率的评估可以为许多下游应用服务,例如文本填充、文本编辑(例如,在更大的文本上下文中替换一个词、一个句子或一个段落)、向已知结论推理,以及需要不仅仅以过去标记为条件的其他任务。最近的工作引入了促进序列建模中这些任务的方法,但当前的方法依赖于定制化的神经架构,并且可能难以大规模利用(Yang等人,2019 (https://arxiv.org/html/2606.14943#bib.bib19); Pannatier等人,2024 (https://arxiv.org/html/2606.14943#bib.bib2))。
在这项工作中,我们引入了 Arbitrary Conditionals GPT (ac-gpt)——这是对标准因果Transformer架构的一个简单修改,增强了其评估和采样任意条件概率的能力,包括以过去、未来以及两者的混合为条件。与其他方法(例如,Devlin等人,2019 (https://arxiv.org/html/2606.14943#bib.bib12); Pannatier等人,2024 (https://arxiv.org/html/2606.14943#bib.bib2))相比,我们的方法保留了序列从左到右的结构,并且可以在单次前向传播中评估任何条件概率,这两者对于在自然语言上获得强大性能都是必要的。我们通过保留通过因果注意力机制的自回归下一个标记预测目标来实现这一点,同时通过用条件标记(无论它们出现在序列中的何处)增强上下文来建模任意条件概率。通过广泛的评估,我们表明ac-gpt在各种条件似然评估和采样任务上持续优于现有基线,并且不会降低标准因果Transformer提供的从左到右建模性能。此外,鉴于ac-gpt与大多数当前语言模型在结构上的相似性,我们表明我们可以轻松微调LLMs,以增强它们建模任意条件概率的能力。
## 2 背景与相关工作
在本节中,我们回顾了现有处理自然语言中任意条件概率评估与采样问题的方法,并强调了我们的方法所解决的关键陷阱。这些比较总结在表 1 (https://arxiv.org/html/2606.14943#S2.T1) 中。
| 方法 | 评估任意条件概率 | 采样任意条件概率 | 从左到右分解 | 单次评估 | 微调GPT风格LLM |
| :--- | :---: | :---: | :---: | :---: | :---: |
| **ac-gpt (ours)** | ✓ | ✓ | ✓ | ✓ | ✓ |
| gpt | ✗ | ✗ | ✓ | ✓ | — |
| σ-gpt | ✓ | ✓ | ✗ | ✓ | ✗ |
| mlm | ✓ | ✓ | ✗ | ✗ | ✗ |
| diffusion | ✗ | ✓ | ✗ | ✓ | ✗ |
表 1:我们的方法 ac-gpt 与其他方法的比较。gpt 指的是标准从左到右的自回归Transformer (Radford等人,2019 (https://arxiv.org/html/2606.14943#bib.bib1))。σ-gpt 是一种代表性的任意顺序自回归因果Transformer (Pannatier等人,2024 (https://arxiv.org/html/2606.14943#bib.bib2))。mlm 指的是具有无限制双向注意力的Transformer,它根据观测到的标记并行地取消掩码多个标记 (Devlin等人,2019 (https://arxiv.org/html/2606.14943#bib.bib12))。diffusion 指的是离散扩散方法 (例如,Sahoo等人,2024 (https://arxiv.org/html/2606.14943#bib.bib14);Austin等人,2021 (https://arxiv.org/html/2606.14943#bib.bib15);Shi等人,2024 (https://arxiv.org/html/2606.14943#bib.bib16))。
##### 因果 Transformer。
标准因果 Transformer,例如 GPT 系列架构 (Radford等人,2019 (https://arxiv.org/html/2606.14943#bib.bib1)),通过链式法则以固定的从左到右顺序自回归地建模序列 **x** 的联合分布:p(**x**) = ∏_t p(x_t | x_{<t})。这实现了高效的单次前向传播似然评估和下一个标记的从左到右采样。然而,这种分解意味着评估任意条件概率(例如,p(**x**_e | **x**_c))需要计算一个通常难解的积分,涉及在观测标记上求和或求积 (Hu等人,2024 (https://arxiv.org/html/2606.14943#bib.bib3))。此外,一个以标准方式预训练的因果 Transformer 本身并不知道如何根据除了之前标记以外的任何东西来进行条件设置。我们工作的一个关键见解是,对标准因果 Transformer 的增强(包括一个专门的微调阶段)使得评估任意条件概率成为可能。
##### 任意顺序模型。
其他方法通过修改 Transformer 架构以适应训练和推理期间的可变因子分解顺序,解决了标准因果 Transformer 的局限性。 例如,σ-gpt (Pannatier等人,2024 (https://arxiv.org/html/2606.14943#bib.bib2)) 随机化自回归生成顺序,并使用第二个位置嵌入表来编码序列中每个标记的解码位置。虽然这保留了自回归分解,从而无需额外的损失项,但由于它缺乏结构化的从左到右归纳偏差,它在自然语言上的表现常常不如标准的从左到右模型。此外,σ-gpt 需要进行排序感知的注意力掩码,并且无法在单次前向传播中评估条件概率,因为在评估一个条件查询时,它必须根据标记的解码顺序逐个生成标记。类似地,排列语言建模 (Yang等人,2019 (https://arxiv.org/html/2606.14943#bib.bib19)) 的目标是捕捉所有因式分解顺序的期望,但通常以单调的从左到右顺序解码。
##### 掩码语言模型 (MLM)。
BERT (Devlin等人,2019 (https://arxiv.org/html/2606.14943#bib.bib12)) 和其他 MLMs 通过预测序列中被随机掩码的标记来训练,利用不受限制的双向注意力来聚合来自所有其他标记的上下文信息。这允许直接评估与观测标记集相对应的条件概率——只需计算被掩码标记的无限制条件分布即可。然而,MLMs(根据设计)不具备自回归分解,这意味着由预测标记的联合分布导致的概率分布可能是不一致的,从而难以从整个序列中采样。此外,双向注意力使得像 GPT 那样的高效、单次前向传播的从左到右生成变得不可能。
也就是说,MLMs 优雅地处理条件概率的方式暗示了将双向注意力与因果分解相结合的可能性。受到这一观察的启发,我们的方法保留了标准从左到右的自回归分解用于评估和生成,同时使用一个互补的双向注意力副本集来处理任意条件。我们方法的关键元素如下,其中 x̄_i 表示一个 token 的副本,具有相同的嵌入和位置编码。我们训练一个条件/评估集的联合分布,每个分布代表一个条件概率查询。
##### 离散扩散模型。
离散扩散模型最近作为非自回归文本生成的一种有竞争力的替代方案出现。诸如 D3PM (Austin等人,2021) 和掩码扩散语言模型 (MDLMs) (Sahoo等人,2024 (https://arxiv.org/html/2606.14943#bib.bib14);Shi等人,2024 (https://arxiv.org/html/2606.14943#bib.bib16)) 等方法通过迭代地去噪或取消掩码序列来生成文本。虽然这些模型可以通过固定观测到的标记并对其余部分进行去噪来从任意条件概率中采样,但它们存在与我们目标相关的两个关键限制。首先,它们可以采样,但无法高效地评估一个序列或条件概率的似然,这使得它们不适用于需要精确密度估计的应用,例如拒绝采样或规划。其次,它们通常缺乏从左到右排序的归纳偏差,这会在实证上损害其性能 (Xue等人,2025 (https://arxiv.org/html/2606.14943#bib.bib17))。即使是最先进的 MDLMs,在困惑度方面通常也低于标准的自回归Transformer (Sahoo等人,2024 (https://arxiv.org/html/2606.14943#bib.bib14)),这可能是由于在缺乏自然语言固有的从左到右分解的结构指导下,优化对数似然的变分下界存在困难。
至关重要的是,所有上述方法——任意顺序Transformer、MLMs和扩散模型——都需要对标准因果Transformer进行根本性的架构改动。这使得在不从头开始训练的情况下,将预训练的LLMs适应这些范式变得不可行。例如,σ-gpt 需要第二个位置嵌入表来解码位置,这在预训练的LLMs中是不存在的,并且这些解码位置嵌入的使用需要从头开始学习。相比之下,我们的方法保留了因果Transformer的架构,从而能够在利用自然语言固有的从左到右结构的同时,微调现有的LLMs以实现任意条件建模。
## 3 建模任意条件概率
我们现在描述我们建模任意条件概率的方法,我们称之为 ArbitraryConditionalsGPT (ac-gpt) 并在图 1 (https://arxiv.org/html/2606.14943#S2.F1) 中进行了说明。
##### 基模型。
ac-gpt 采用标准的因果仅解码器 Transformer 架构 (Radford等人,2019 (https://arxiv.org/html/2606.14943#bib.bib1)),并通过向序列中添加额外的 token 来建模任意条件概率。因果 Transformer 的主要特点是 (a) token 只能关注过去的 token,(b) 每个 token 在最后一层的隐藏表示用于解码序列中的下一个 token,(c) 模型使用教师强制进行训练,以及 (d) 位置信息编码在 token 嵌入中。我们使用 GPT-2 架构,但采用旋转位置编码 (RoPE, Su等人,2024 (https://arxiv.org/html/2606.14943#bib.bib4)) 而非相对位置编码,因为其性能更优。
##### 条件查询。
为了建模一个条件查询,我们考虑一个序列 **x** = (x_1, ..., x_T),它被划分为两个不重叠的子集:一个条件集 **x**_c,表示条件 token;一个评估集 **x**_e,表示我们希望评估其联合分布的 token。重要的是,每个分区所包含的序列元素可以任意设置,并且保留原始序列的顺序信息。我们的目标是,对于 **x** 的任何划分 (**x**_e, **x**_c),建模由此产生的查询 p(**x**_e | **x**_c)。在训练时,损失仅包括 **x**_e 中 token 的平均预测误差——不能使用条件 token 的预测,因为模型已经可以访问它们。ac-gpt 通过创建 **x**_c 的副本 **̄x**_c 来处理条件 token **x**_c,这些副本被放置在序列的“开头”,使得序列中的所有其他 token 都可以关注它们。虽然因果注意力使用这种新的顺序,但副本 **̄x**_c 保留其原始序列位置的位置编码(见图 1 (https://arxiv.org/html/2606.14943#S2.F1))。这有效地用包含位置感知条件信息的提示来增强序列。由于条件 token 是已知的,因此无需在条件集内维护因果注意力掩码。因此,为了保持更强的表达能力,我们使用 **̄x**_c 中 token 之间的无限制双向注意力。我们还注意到,类似的复制机制被用于高效训练的块扩散中 (Arriola等人,2025 (https://arxiv.org/html/2606.14943#bib.bib20))。
需要阐明为什么 ac-gpt 必须包含所有其他 token 都可以关注的条件 token **x**_c 的副本 **̄x**_c,而不是仅仅允许所有 token 关注已经存在于序列中的原始 token **x**_c。实际上,这些副本对于防止当每个 token 为序列中的下一个 token 进行预测时,信息在多个 Transformer 层之间泄漏是必要的。这是一个微妙的问题,最好用一个具体的例子来说明。考虑一个序列 **x** = (x_1, x_2, x_3, x_4),其中 **x**_e = {x_1, x_2, x_4} 且 **x**_c = {x_3}。为了使 x_3 能够为其下一个 token 做出有效的预测 x̂_4,它必须能够关注它之前的所有 token。此外,x_1 和 x_2 都必须能够关注条件 token x_3。没有我们的复制机制,那么关于 x_2 的信息将在一层之后通过标准的因果注意力传递到 x_3,随后在下一层通过 x_3 传递到 x_1。这种从 x_2 到 x_1 的间接信息泄漏违反了序列从左到右的链式法则分解。出于这个原因,我们创建了条件集的一个副本 **̄x**_c,评估集 **x**_e 可以在多层上关注它,而不会将 **x**_e 中较晚 token 的信息泄漏到较早的 token 中。总之,如图 1 (https://arxiv.org/html/2606.14943#S2.F1) 所示,传递给我们的模型的完整增强序列是 [**̄x**_c, **x**],其中:
- • **̄x**_c 是 **x**_c 的副本。
- • 除了在 **̄x**_c 内部使用双向注意力外,其他地方都使用因果注意力。
- • 训练损失仅包括 **x**_e 中 token 的平均预测误差。
##### 条件集分布。
为了能够在推理时建模真正任意的条件查询,我们需要在具有完全覆盖范围的条件查询分布上进行训练。然而,建模更多样化的查询需要更多的模型容量和训练时间 (Shih等人,2022 (https://arxiv.org/html/2606.14943#bib.bib7))。实际上,根据预期的下游任务,模型需要评估的条件查询类型通常存在结构——例如,也许只需要以序列的一小部分为条件,或者条件 token 往往是连续子序列的一部分。在这项工作中,我们从插值了完全任意的条件查询和更结构化、可能有助于下游任务的查询的分布中采样我们的条件集 **x**_c(如图 D.1 (https://arxiv.org/html/2606.14943#A4.F1) 所示)。直观地说,我们的采样过程生成由不同数量和不同大小的连续块组成的条件集。具体地,对于任何给定的长度为 ||**x**|| 的训练序列 **x**,我们按如下方式采样一个条件集 **x**_c ⊂ **x**:
1. 1. 首先,我们在一个依赖于序列长度的范围内采样条件集的长度 ||**x**_c||。具体来说,||**x**_c|| ∼ Unif(r_min||**x**||, r_max||**x**||),其中 0 ≤ r_min ≤ r_max ≤ 1 是固定的超参数。
2. 2. 接下来,我们采样连续条件块的数量 B ∼ Unif(b_min, b_max),其中 1 ≤ b_min ≤ b_max ≤ ||**x**_c||。b_min 和 b_max 可以是固定的超参数,也可以是范围依赖于 ||**x**_c|| 的变量。
3. 3. 然后,我们通过初始化所有 i 的 s_i = 1,并将剩余的 ||**x**_c|| - B 个 token 均匀且独立地分配到 B 个块中的一个,来采样块大小 {s_i}_{i=1}^B(使得 ∑_{i=1}^B s_i = ||**x**_c||)。相似文章
基于自回归序列模型的条件属性估计
本文介绍了条件属性变换器(Conditional Attribute Transformers),一种联合估计条件概率和属性值的方法,能够在单次前向传播中实现信用分配、反事实分析和可引导生成。
The Cognitive Categorical Transformer: 语言建模中的范畴理论归纳偏差
The Cognitive Categorical Transformer (CCT) 使用范畴理论组件增强GPT-2 Small,在匹配训练条件下在WikiText-103上实现了12%的相对困惑度降低,其中单纯消息传递贡献了84%的改进。
下一个令牌预测何时有用?边际化、遍历性、混合可识别性、局部充分性、RAG、工具与编程
本文区分了语言建模中常被混淆的三个概率对象——完整条件语言过程、边际纯文本法则和模型诱导分布——并分析了下一个令牌预测有用的条件,将 RAG 和工具解释为条件充分性设备。
GiLT:利用依存图增强Transformer语言模型
论文提出了GiLT(Graph-Infused Layers Transformer Language Model),它通过在token预测过程中增量构建的依存图特征来调整注意力权重,从而改善句法泛化能力,在保持竞争性困惑度的同时超越基线模型。
面向长程语言智能体可验证强化学习的策略条件化反事实信用
提出了CVT-RL,一种带有策略条件化反事实贡献估计和可验证奖励的约束策略梯度算法,提高了长程语言智能体的可靠性并减少了奖励篡改。