Scratchpad Patching：在字节级语言模型中解耦计算量与补丁大小

Hugging Face Daily Papers 2026/05/10 00:00 论文

摘要

本文介绍了 Scratchpad Patching，这是一种针对无分词器（tokenizer-free）语言模型的技术，通过在补丁（patch）内动态刷新上下文来减少补丁滞后，从而将计算量与补丁大小解耦。

无分词器（tokenizer-free）语言模型通过直接对字节进行操作，消除了语言建模流水线中的分词步骤；基于补丁的变体进一步将连续的字节序列聚合为补丁以提高效率。然而，在模型设计阶段选择的平均补丁大小决定了一个严格的权衡：较大的补丁可以减少计算量和键值缓存（KV-cache）占用，但会降低建模质量。我们将这种权衡归因于补丁滞后（patch lag）：在补丁被完全观测之前，为了保持因果性，补丁内的字节预测必须依赖于来自前一个补丁的陈旧表示；随着补丁变大，这种滞后现象愈发严重。我们引入了 Scratchpad Patching（SP），它在每个补丁内部插入临时的“草稿区”（scratchpads），以聚合迄今为止看到的字节，并为后续预测刷新补丁级别的上下文。SP 使用下一字节预测熵来触发草稿区，将计算资源选择性地分配给信息密集区域，并支持对推理时计算量的事后调整。在自然语言和代码上的实验表明，SP 在相同补丁大小下提高了模型质量；例如，即使在每个补丁仅 16 个字节的情况下，经过 SP 增强的模型在下游评估中的表现也匹配或接近字节级基线，同时其补丁级键值缓存减少了 16 倍，推理计算量降低了 3 到 4 倍。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:28

论文页面 - Scratchpad Patching：在字节级语言模型中解耦计算与补丁大小

来源: https://huggingface.co/papers/2605.09630

摘要

基于补丁的方法在使用无分词器的语言模型时，由于“补丁延迟（patch lag）”而在计算效率和建模质量之间面临权衡；Scratchpad Patching 通过根据预测熵动态刷新补丁内的上下文来解决这一问题。

无分词器的语言模型 (https://huggingface.co/papers?q=Tokenizer-free%20language%20models) 通过在字节级别直接操作，消除了语言建模流水线中的分词器步骤；基于补丁的变体 (https://huggingface.co/papers?q=patch-based%20variants) 进一步将连续的字节序列聚合为补丁以提高效率。然而，模型设计阶段选择的平均补丁大小决定了紧密的权衡：较大的补丁会减少计算量和 KV 缓存 (KV-cache) 占用，但会降低建模质量。我们将这种权衡归因于补丁延迟 (patch lag) (https://huggingface.co/papers?q=patch%20lag)：直到一个补丁被完全观测到之前，其中的字节预测必须依赖前一个补丁的陈旧表示以维持因果性；随着补丁变大，这种延迟也会扩大。我们引入了 Scratchpad Patching (SP)，它在每个补丁内部插入临时的 scratchpads (https://huggingface.co/papers?q=scratchpads)，以聚合到目前为止看到的字节并刷新后续预测的补丁级上下文。SP 利用下一字节预测熵 (https://huggingface.co/papers?q=next-byte%20prediction%20entropy) 触发 scratchpads (https://huggingface.co/papers?q=scratchpads)，有选择地分配计算资源给信息密集区域，并允许对推理时的计算进行事后调整。在自然语言和代码上的实验表明，SP 在相同补丁大小下提高了模型质量；例如，即使在每个补丁 16 字节的情况下，经过 SP 增强的模型在下游评估中也达到或接近字节级基线水平，同时将补丁的 KV 缓存 (https://huggingface.co/papers?q=KV%20cache) 缩小了 16 倍，并将推理计算量 (https://huggingface.co/papers?q=inference%20compute) 减少了 3 至 4 倍。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09630) 查看 PDF (https://arxiv.org/pdf/2605.09630) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09630)

在您的 Agent 中获取此论文：

hf papers read 2605\.09630

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.09630 以便从此页面链接。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.09630 以便从此页面链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.09630 以便从此页面链接。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集 (https://huggingface.co/new-collection) 以便从此页面链接。

Scratchpad Patching：在字节级语言模型中解耦计算量与补丁大小

论文页面 - Scratchpad Patching：在字节级语言模型中解耦计算与补丁大小

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

自适应分块在时间序列预测中比看起来更难实现

当 Attribution Patching 存在偏差：诊断与二阶修正

PatchBoard：基于模式的状态变更机制，用于可靠且可审计的LLM多智能体协作

揭秘数据受限语言模型预训练中的训练时数据增强

通过字节级模拟解耦子词分词对语言模型训练的益处

提交意见反馈