快速字节潜在Transformer

Hugging Face Daily Papers 论文

摘要

本文介绍了用于字节级语言模型的BLT扩散(BLT Diffusion)和投机解码技术,在保持生成质量的同时,显著降低了生成延迟和内存带宽成本。

最近的字节级语言模型(LM)在不依赖子词词表的情况下,性能已达到词元级模型的水平,但其实用性受限于缓慢的逐字节自回归生成过程。我们通过新的训练和生成技术在字节潜在Transformer(BLT)中解决了这一瓶颈。首先,我们引入了BLT扩散(BLT-D),这是一种新模型,也是目前最快的BLT变体,它在标准下一字节预测损失的基础上,辅以分块扩散目标进行训练。这使得推理过程能够在每个解码步骤中并行生成多个字节,从而大幅减少生成序列所需的前向传播次数。其次,我们提出了两种受投机解码启发的扩展技术,它们以部分速度换取更高的生成质量:BLT自投机(BLT-S),其中BLT的局部解码器在正常补丁边界之外继续生成以起草字节,然后通过单次全模型前向传播进行验证;以及BLT扩散+验证(BLT-DV),它在基于扩散的生成之后,为BLT-D增加了自回归验证步骤。所有方法在生成任务上的预估内存带宽成本均比BLT降低50%以上。每种方法都有其独特的优势,共同消除了字节级语言模型实用化的主要障碍。
查看原文
查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - 快速字节潜在 Transformer(Fast Byte Latent Transformer)

来源:https://huggingface.co/papers/2605.08044

摘要

字节级语言模型通过基于扩散的并行处理和推测性解码技术,克服了自回归生成速度慢的问题,从而在速度和质量上均有所提升。

近期的字节级语言模型(https://huggingface.co/papers?q=byte-level%20language%20models)(LMs)在不依赖子词词表(https://huggingface.co/papers?q=subword%20vocabularies)的情况下,性能可与词级模型(https://huggingface.co/papers?q=token-level%20models)相媲美,但其应用效用受到逐字节自回归生成(https://huggingface.co/papers?q=autoregressive%20generation)速度慢的限制。我们通过新的训练和生成技术解决了字节潜在 Transformer(https://huggingface.co/papers?q=Byte%20Latent%20Transformer)(BLT)中的这一瓶颈。首先,我们介绍了 BLT Diffusion(https://huggingface.co/papers?q=BLT%20Diffusion)(BLT-D),这是一种新模型,也是目前最快的 BLT 变体,它使用辅助的分块扩散目标(https://huggingface.co/papers?q=block-wise%20diffusion%20objective)与标准的下一字节预测损失(https://huggingface.co/papers?q=next-byte%20prediction%20loss)一起进行训练。这使得推理过程能够在每个解码步骤中并行生成多个字节,大幅减少了生成序列所需的前向传播次数。其次,我们提出了两种受推测性解码(https://huggingface.co/papers?q=speculative%20decoding)启发的扩展方法,以牺牲部分速度为代价换取更高的生成质量:BLT Self-speculation(https://huggingface.co/papers?q=BLT%20Self-speculation)(BLT-S),其中 BLT 的局部解码器继续在其正常的块边界之外生成以起草字节,然后通过单次全模型前向传播进行验证;以及 BLT Diffusion+Verification(https://huggingface.co/papers?q=BLT%20Diffusion%2BVerification)(BLT-DV),它在基于扩散的生成之后为 BLT-D 增加了自回归验证步骤。所有方法在生成任务上的估计内存带宽成本(https://huggingface.co/papers?q=memory-bandwidth%20cost)均比 BLT 降低 50% 以上。每种方法都有其独特的优势,共同消除了字节级语言模型实际应用的关键障碍。

查看 arXiv 页面(https://arxiv.org/abs/2605.08044)查看 PDF(https://arxiv.org/pdf/2605.08044)添加到合集(https://huggingface.co/login?next=%2Fpapers%2F2605.08044)

在您的代理中获取此论文:

hf papers read 2605.08044

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有引用此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.08044 即可从此页面链接。

引用此论文的数据集 0

没有引用此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.08044 即可从此页面链接。

引用此论文的 Spaces 0

没有引用此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.08044 即可从此页面链接。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

基于时空并行解码与置信度外推的高效扩散LLMs

arXiv cs.CL

本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。

# 支持性令牌揭示:用于快速扩散语言模型解码

arXiv cs.CL

本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。