BitLM:利用位级连续扩散解锁多 Token 语言生成

arXiv cs.CL 论文

摘要

本文介绍了 BitLM,一种利用位级连续扩散并行生成多个 Token 的语言模型,旨在克服传统自回归生成的顺序瓶颈,同时保留因果结构。

arXiv:2605.11577v1 公告类型:新发布 摘要:自回归语言模型一次生成一个 Token,然而自然语言本质上是由多 Token 单元构成的,包括短语、n-gram 和搭配,它们共同承载意义。这种单 Token 瓶颈限制了模型在预训练期间的表达能力以及在推理阶段的吞吐量。现有的补救措施,如投机解码(speculative decoding)或基于扩散的语言模型,要么未能解决底层瓶颈,要么牺牲了语言建模所必需的因果结构。我们提出了 BitLM,一种将每个 Token 表示为固定长度二进制代码,并采用轻量级扩散头在每个块内并行去噪多个 Token 的语言模型。关键的是,BitLM 在块之间保留了从左到右的因果注意力,同时在每个块内进行联合词汇决策,结合了自回归建模的可靠性与迭代优化的并行性。通过用位级去噪替换大词汇量 softmax,BitLM 将 Token 生成重新定义为紧凑二进制空间中的迭代承诺,从而在不改变使语言模型有效的因果基础的情况下,实现更高效的预训练和大幅更快的推理。我们的结果表明,逐个 Token 生成的范式并非基本要求,而是一种接口选择,改变它可以带来更强、更快的语言模型。我们希望 BitLM 能为下一代语言模型架构指明一个有前景的方向。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:14

# BitLM:通过位连续扩散解锁多令牌语言生成

来源: https://arxiv.org/html/2605.11577
Shaobin Zhuang1, Yuang Ai2,3, Jiaming Han2, Xiaohui Li1, Huaibo Huang3, Xiangyu Yue2, Xuefeng Hu, Kun Xu, Yali Wang4✉, Hao Chen✉
1上海交通大学
2香港中文大学 MMLab
3中国科学院自动化研究所
4中国科学院深圳先进技术研究院

###### 摘要

自回归语言模型一次生成一个令牌(token),然而自然语言本质上是由多令牌单元构成的——短语、n-gram 和搭配共同承载意义。这种“一次一令牌”的瓶颈限制了模型在预训练期间的表达能力以及在推理阶段的吞吐量。现有的补救措施,如推测解码(speculative decoding)或基于扩散的语言模型,要么没有解决根本性的瓶颈,要么牺牲了语言建模所必需的因果结构。我们提出了 **BitLM**,一种语言模型,它将每个令牌表示为固定长度的二进制码,并采用轻量级的扩散头(diffusion head)在每个块内并行去噪多个令牌。关键在于,BitLM 在块之间保留了从左到右的因果注意力,同时在每个块内进行联合词汇决策,结合了自回归建模的可靠性与迭代优化的并行性。通过用位级去噪替换大词汇量的 softmax,BitLM 将令牌生成重新框定为紧凑二进制空间中的迭代承诺,从而实现了更高效的预训练和显著更快的推理速度,而无需改变使语言模型有效的因果基础。我们的结果表明,“一次一令牌”范式并非基本要求,而是一种接口选择,改变它可以带来更强、更快的语言模型。我们希望 BitLM 能为下一代语言模型架构指出一个充满希望的方向。

## 1 引言

现代大型语言模型通常被描述为语言模型,但从操作层面来看,它们实际上是词汇 ID 之间转换的模型。给定前缀,Transformer 计算上下文隐藏状态,并将其转换为词汇表上的归一化分布;然后采样一个令牌,附加到前缀之后,并重复该过程。这种“下一令牌”范式奠定了当代 LLM 在不同规模和领域取得成功的基础(Brown 等., 2020; Chowdhery 等., 2023; Touvron 等., 2023; Grattafiori 等., 2024)。与此同时,它在隐藏状态计算与符号输出之间施加了一个非常具体的接口:语言必须作为原子类别决策序列发出。这一接口长期以来被认为具有局限性(Yang 等., 2017),并且使得生成过程在推理时本质上是顺序的。

大量近期的工作试图在不改变底层输出接口的情况下减少这一顺序瓶颈。块解码(Blockwise decoding)、推测解码和多令牌预测通过同时提出或验证多个未来令牌来加速生成(Stern 等., 2018; Leviathan 等., 2023; Cai 等., 2024; Gloeckle 等., 2024)。非自回归和半自回归方法通过放松严格的从左到右因子分解更进一步(Gu 等., 2017; Wang 等., 2018; Ghazvininejad 等., 2019)。与此同时,扩散和迭代优化已成为离散生成中一步类别预测的有力替代方案(Austin 等., 2021; Li 等., 2022; Gong 等., 2022; Lou 等., 2024)。这些方向产生了重要的见解,但它们通常未触及一个假设:模型最终仍然通过词汇级别的类别输出来与文本交互,无论是一次一个令牌还是多个令牌。

![图1:标准 AR LLM 与 BitLM 的概念比较。通过用扩散头替换 softmax 头,BitLM 将令牌生成重新表述为紧凑二进制空间中的迭代去噪,实现了多令牌的联合实现。](https://arxiv.org/html/2605.11577#S1.F1)

本文从一个不同的前提开始,如图 1 所示。我们不是问如何更高效地解码词汇表 softmax,而是问词汇表 softmax 是否应该作为主要接口。令牌身份通常被视为原子类别,但同样可以表示为短二进制码。表面上看,这可能看起来像简单的重参数化。我们的主张是,它改变了生成的几何结构。词汇表 softmax 将词汇替代方案置于单纯形上,并鼓励逐位置的类别决策;二进制表示将令牌预测转化为对一组协调的二进制变量的去噪。在这种视角下,生成不再仅仅是选择下一个令牌 ID 的问题。它变成了将续写实现为结构化离散对象的问题,该对象可以在多个位置上联合优化。

这一观点与最近的几项发展相呼应。字节级和无令牌模型表明,原始文本与序列建模之间的基本接口比 WordPiece 分词所暗示的更加灵活(Xue 等., 2022; Yu 等., 2023)。基于扩散的模型表明,迭代优化可以成为离散数据强大的生成原则(Austin 等., 2021; Li 等., 2022; Gong 等., 2022; Lou 等., 2024)。在视觉和其他离散领域,如 Analog Bits 这样的二进制公式表明,位空间中的扩散可以在离散符号和连续去噪动力学之间提供简单有效的桥梁(Chen 等., 2022)。然而,这一视角在语言建模中仍然探索不足,其中输出层仍然主要围绕大的类别词汇分布组织。

我们认为,语言正是这一问题的关键所在,因为输出接口不仅是建模选择,也是解码瓶颈。受此观察启发,我们提出了 **BitLM**,它将近期视觉令牌生成方法(如 BitDance)的二进制空间去噪视角转移到文本中(Ai 等., 2026; Zhuang 等., 2026)。如图 1 所示,BitLM 将每个分词器条目表示为固定长度的二进制码,将这些码投影到标准 LLM 骨干网络的隐藏维度,并以通常的从左到右方式执行因果计算。模型不使用词汇表 softmax 进行解码,而是使用结果上下文潜在变量来调节扩散头,该扩散头联合去噪未来令牌的二进制码。由于扩散头同时作用于多个位置,它可以并行实现一个令牌块,而不是将每个未来位置视为孤立的类别抽样。通过将注意力掩码从完全因果调整为块因果(block-causal),模型可以在保持块间因果依赖的同时调整并行程度。

由此形成的图景在概念上很简单:骨干网络负责*推理接下来应该发生什么*,而扩散头负责*实现该续写如何结晶为离散符号*。这种分离是 BitLM 的核心理念。它保留了使自回归 LLM 如此有效的因果归纳偏置,但用二进制空间中的联合去噪替换了最终的词汇级决策。与事后加速方案不同,块级并行生成因此不是外部附加组件,而是模型生成接口的原生结果。

更广泛地说,BitLM 表明大词汇量 softmax 是历史选择,而不是语言建模的必要终点。我们的目标不是声称二进制编码是令牌级语言建模的通用替代品。相反,我们使用 BitLM 来揭示一个相对较少关注的设计维度:符号输出空间的几何结构。一旦改变该几何结构,新的解码机制就变得自然。特别是,块因果生成可以不被理解为对自回归抽样的近似,而是其自身的一种一等公民生成模式。这一观点在通常分开讨论的三个文献之间建立了清晰的概念桥梁:自回归语言建模、基于扩散的离散生成和并行解码。

本文的主要贡献有三。首先,它引入了一种语言建模的二进制码公式,用位空间中的去噪替换词汇级预测。其次,它提出了一种简单的架构,结合因果 LLM 骨干和用于联合块级词汇实现的扩散头,自然地启用了块因果并行生成。第三,它推进了一种更广泛的语言生成视角:改变输出空间的几何结构可以改变解码本身的几何结构。

## 2 相关工作

#### 并行和半自回归生成

大量工作试图在不改变底层词汇级类别接口的情况下减少下一令牌解码的串行瓶颈。基础的非自回归、半自回归和迭代优化模型通过并行令牌预测或重复编辑放松了严格的从左到右因子分解(Gu 等., 2017; Wang 等., 2018; Ghazvininejad 等., 2019; Stern 等., 2019)。最近的面向 LLM 的方法通常保留标准语言模型头,并通过更好的提议或验证机制加速推理,包括块级并行解码(Stern 等., 2018)、推测解码(Leviathan 等., 2023)、辅助多令牌头(如 Medusa)(Cai 等., 2024)和多令牌预测目标(Gloeckle 等., 2024)。

BitLM 在其在生成时暴露更多并行性的目标上与这一文献一致,但它在该并行性进入模型的位置上有所不同。BitLM 不提议几个类别令牌然后在传统 softmax 头下接受、拒绝或验证它们,而是通过联合去噪二进制令牌码来实现整个未来块。因此,块级生成是模型原生输出接口的属性,而不是外部解码过程。相反,与精确推测方法不同,BitLM 不旨在保留现有自回归模型的分布;它定义了不同的生成参数化。

#### 用于文本的扩散和迭代优化

第二条工作线将语言建模为迭代去噪。早期工作建立了离散状态空间中的一般扩散过程(Austin 等., 2021)。随后的文本扩散模型对连续嵌入进行去噪(Li 等., 2022; Strudel 等., 2022; Gong 等., 2022),引入了自回归或半自回归扩散因子分解(Wu 等., 2023; Han 等., 2023),并开发了更强的离散或基于得分的参数化(Zheng 等., 2023; Lou 等., 2024; Sahoo 等., 2024)。最近的大规模变体如 LLaDA 和 Block Diffusion 进一步缩小了扩散与自回归语言建模之间的差距,同时实现了灵活长度或块级生成(Nie 等., 2025; Arriola 等., 2025)。

BitLM 最接近这一文献中的半自回归和块扩散部分,但区别在于去噪发生的空间。先前的文本扩散模型通常优化嵌入、掩码、单纯形状态或类别令牌变量;BitLM 则对固定长度的二进制令牌码进行去噪,并仅在因果 LLM 骨干之上使用扩散进行词汇实现。从这个意义上说,上下文计算仍然是标准的从左到右 Transformer 计算,而最终的符号实现被移动到迭代二进制空间中。我们不认为这是对词汇空间或掩码空间扩散的通用替代品。相反,它是设计空间中的一个不同点,使得块内联合词汇抽样特别自然。

#### 替代符号接口和输出层

第三条工作线质疑是否应将大词汇量 softmax 视为隐藏状态与符号之间的唯一接口。理论和架构研究分析了传统输出层的局限性(Yang 等., 2017)。早期的如二进制码预测等大词汇方法用位分类器替换平面 softmax 以降低输出层成本(Oda 等., 2017)。正交地,ByT5、MEGABYTE 和 BLT 等无令牌或字节级模型改变了基本建模单元本身,而不是解码规则(Xue 等., 2022; Yu 等., 2023; Pagnoni 等., 2025)。与我们的工作最直接相关的是二进制空间生成模型。Analog Bits 表明离散符号可以表示为固定长度的二进制码并通过连续去噪生成(Chen 等., 2022),而最近的视觉令牌工作如 BitDance 和 UniWeTok 展示了非常大的二进制码空间在图像和多模态生成中的前景(Ai 等., 2026; Zhuang 等., 2026)。BitLM 将这种二进制去噪视角

相似文章

TextLDM:利用连续潜在扩散进行语言建模

Hugging Face Daily Papers

本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。

快速字节潜在Transformer

Hugging Face Daily Papers

本文介绍了用于字节级语言模型的BLT扩散(BLT Diffusion)和投机解码技术,在保持生成质量的同时,显著降低了生成延迟和内存带宽成本。