Scratchpad Patching:在字节级语言模型中解耦计算量与补丁大小
摘要
本文介绍了 Scratchpad Patching,这是一种针对无分词器(tokenizer-free)语言模型的技术,通过在补丁(patch)内动态刷新上下文来减少补丁滞后,从而将计算量与补丁大小解耦。
查看缓存全文
缓存时间: 2026/05/12 07:28
论文页面 - Scratchpad Patching:在字节级语言模型中解耦计算与补丁大小
来源: https://huggingface.co/papers/2605.09630
摘要
基于补丁的方法在使用无分词器的语言模型时,由于“补丁延迟(patch lag)”而在计算效率和建模质量之间面临权衡;Scratchpad Patching 通过根据预测熵动态刷新补丁内的上下文来解决这一问题。
无分词器的语言模型 (https://huggingface.co/papers?q=Tokenizer-free%20language%20models) 通过在字节级别直接操作,消除了语言建模流水线中的分词器步骤;基于补丁的变体 (https://huggingface.co/papers?q=patch-based%20variants) 进一步将连续的字节序列聚合为补丁以提高效率。然而,模型设计阶段选择的平均补丁大小决定了紧密的权衡:较大的补丁会减少计算量和 KV 缓存 (KV-cache) 占用,但会降低建模质量。我们将这种权衡归因于补丁延迟 (patch lag) (https://huggingface.co/papers?q=patch%20lag):直到一个补丁被完全观测到之前,其中的字节预测必须依赖前一个补丁的陈旧表示以维持因果性;随着补丁变大,这种延迟也会扩大。我们引入了 Scratchpad Patching (SP),它在每个补丁内部插入临时的 scratchpads (https://huggingface.co/papers?q=scratchpads),以聚合到目前为止看到的字节并刷新后续预测的补丁级上下文。SP 利用下一字节预测熵 (https://huggingface.co/papers?q=next-byte%20prediction%20entropy) 触发 scratchpads (https://huggingface.co/papers?q=scratchpads),有选择地分配计算资源给信息密集区域,并允许对推理时的计算进行事后调整。在自然语言和代码上的实验表明,SP 在相同补丁大小下提高了模型质量;例如,即使在每个补丁 16 字节的情况下,经过 SP 增强的模型在下游评估中也达到或接近字节级基线水平,同时将补丁的 KV 缓存 (https://huggingface.co/papers?q=KV%20cache) 缩小了 16 倍,并将推理计算量 (https://huggingface.co/papers?q=inference%20compute) 减少了 3 至 4 倍。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09630) 查看 PDF (https://arxiv.org/pdf/2605.09630) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09630)
在您的 Agent 中获取此论文:
hf papers read 2605\.09630
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.09630 以便从此页面链接。
引用此论文的数据集 0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.09630 以便从此页面链接。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.09630 以便从此页面链接。
包含此论文的合集 0
没有包含此论文的合集
将此论文添加到合集 (https://huggingface.co/new-collection) 以便从此页面链接。
相似文章
自适应分块在时间序列预测中比看起来更难实现
本文从理论和实验两个角度对时间序列 Transformer 的自适应分块方法进行了深入研究,推导出内容自适应分词应优于调优后的均匀分块的条件。在标准基准上的受控实验表明,经过良好调优的均匀基线与动态分块方法具有相当的竞争力,这对自适应方法所假设的优势提出了质疑。
当 Attribution Patching 存在偏差:诊断与二阶修正
本文诊断了 attribution patching 中的系统性误差——这是一种用于语言模型因果定位的基于梯度的近似方法——并提出了一种使用 Hessian-vector product 的二阶修正,该修正以极小的额外计算成本提高了可靠性。
PatchBoard:基于模式的状态变更机制,用于可靠且可审计的LLM多智能体协作
PatchBoard 使用经过验证的 JSON Patch 变更操作来取代 LLM 多智能体系统中的自然语言对话,该操作基于共享的结构化状态,在 ALFWorld 基准测试中实现了更高的成功率并大幅降低了 token 使用量。
揭秘数据受限语言模型预训练中的训练时数据增强
本文研究了在数据受限、算力充足的场景下,为缓解自回归语言模型预训练中的过拟合而采用训练时数据增强技术,发现结合词元级噪声、序列排列和目标偏移预测可以改善验证损失。
通过字节级模拟解耦子词分词对语言模型训练的益处
本文通过进行受控的字节级预训练实验,研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素,如训练吞吐量以及将子词边界作为语言先验的整合。