快速字节潜在Transformer

Hugging Face Daily Papers 2026/05/08 00:00 论文

byte-level-lm diffusion speculative-decoding inference-optimization transformer arxiv

摘要

本文介绍了用于字节级语言模型的BLT扩散（BLT Diffusion）和投机解码技术，在保持生成质量的同时，显著降低了生成延迟和内存带宽成本。

最近的字节级语言模型（LM）在不依赖子词词表的情况下，性能已达到词元级模型的水平，但其实用性受限于缓慢的逐字节自回归生成过程。我们通过新的训练和生成技术在字节潜在Transformer（BLT）中解决了这一瓶颈。首先，我们引入了BLT扩散（BLT-D），这是一种新模型，也是目前最快的BLT变体，它在标准下一字节预测损失的基础上，辅以分块扩散目标进行训练。这使得推理过程能够在每个解码步骤中并行生成多个字节，从而大幅减少生成序列所需的前向传播次数。其次，我们提出了两种受投机解码启发的扩展技术，它们以部分速度换取更高的生成质量：BLT自投机（BLT-S），其中BLT的局部解码器在正常补丁边界之外继续生成以起草字节，然后通过单次全模型前向传播进行验证；以及BLT扩散+验证（BLT-DV），它在基于扩散的生成之后，为BLT-D增加了自回归验证步骤。所有方法在生成任务上的预估内存带宽成本均比BLT降低50%以上。每种方法都有其独特的优势，共同消除了字节级语言模型实用化的主要障碍。

查看原文

查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - 快速字节潜在 Transformer（Fast Byte Latent Transformer）

来源：https://huggingface.co/papers/2605.08044

摘要

字节级语言模型通过基于扩散的并行处理和推测性解码技术，克服了自回归生成速度慢的问题，从而在速度和质量上均有所提升。

近期的字节级语言模型（https://huggingface.co/papers?q=byte-level%20language%20models）（LMs）在不依赖子词词表（https://huggingface.co/papers?q=subword%20vocabularies）的情况下，性能可与词级模型（https://huggingface.co/papers?q=token-level%20models）相媲美，但其应用效用受到逐字节自回归生成（https://huggingface.co/papers?q=autoregressive%20generation）速度慢的限制。我们通过新的训练和生成技术解决了字节潜在 Transformer（https://huggingface.co/papers?q=Byte%20Latent%20Transformer）（BLT）中的这一瓶颈。首先，我们介绍了 BLT Diffusion（https://huggingface.co/papers?q=BLT%20Diffusion）（BLT-D），这是一种新模型，也是目前最快的 BLT 变体，它使用辅助的分块扩散目标（https://huggingface.co/papers?q=block-wise%20diffusion%20objective）与标准的下一字节预测损失（https://huggingface.co/papers?q=next-byte%20prediction%20loss）一起进行训练。这使得推理过程能够在每个解码步骤中并行生成多个字节，大幅减少了生成序列所需的前向传播次数。其次，我们提出了两种受推测性解码（https://huggingface.co/papers?q=speculative%20decoding）启发的扩展方法，以牺牲部分速度为代价换取更高的生成质量：BLT Self-speculation（https://huggingface.co/papers?q=BLT%20Self-speculation）（BLT-S），其中 BLT 的局部解码器继续在其正常的块边界之外生成以起草字节，然后通过单次全模型前向传播进行验证；以及 BLT Diffusion+Verification（https://huggingface.co/papers?q=BLT%20Diffusion%2BVerification）（BLT-DV），它在基于扩散的生成之后为 BLT-D 增加了自回归验证步骤。所有方法在生成任务上的估计内存带宽成本（https://huggingface.co/papers?q=memory-bandwidth%20cost）均比 BLT 降低 50% 以上。每种方法都有其独特的优势，共同消除了字节级语言模型实际应用的关键障碍。

查看 arXiv 页面（https://arxiv.org/abs/2605.08044）查看 PDF（https://arxiv.org/pdf/2605.08044）添加到合集（https://huggingface.co/login?next=%2Fpapers%2F2605.08044）

在您的代理中获取此论文：

hf papers read 2605.08044

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有引用此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.08044 即可从此页面链接。

引用此论文的数据集 0

没有引用此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.08044 即可从此页面链接。

引用此论文的 Spaces 0

没有引用此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.08044 即可从此页面链接。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集（https://huggingface.co/new-collection）即可从此页面链接。

快速字节潜在Transformer

论文页面 - 快速字节潜在 Transformer（Fast Byte Latent Transformer）

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

@JulieKallini: Fast Byte Latent Transformer 被 ICML 2026 接收！字节级语言模型有望摆脱子词分词器，但解码……

BitLM：利用位级连续扩散解锁多 Token 语言生成

基于时空并行解码与置信度外推的高效扩散LLMs

Dynamic-dLLM：动态缓存预算与自适应并行解码，实现扩散大语言模型的无训练加速

# 支持性令牌揭示：用于快速扩散语言模型解码

提交意见反馈