Compute Optimal Tokenization (2分钟阅读)

TLDR AI 2026/05/13 00:00 论文

tokenization scaling-laws compute-optimal neural-networks large-language-models compression efficiency

摘要

本文通过训练近1300个模型，系统推导了压缩感知的神经缩放定律，证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律，为跨多样语言和模态的计算高效训练提供了新框架。

研究人员通过训练近1300个模型，推导出压缩感知的神经缩放定律，揭示了每词元字节数如何影响计算分配。这挑战了将模型按每参数20个词元进行缩放的启发式方法，表明该方法是特定分词器导致的。研究建议缩放应基于字节而非词元，以在多样语言中实现更高的计算效率。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/14 00:10

# 计算最优分词来源：https://arxiviq.substack.com/p/compute-optimal-tokenization **作者：** *Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer* **论文：** https://arxiv.org/abs/2605.01188v1 **代码：** https://co-tok.github.io/ **做了什么？** 作者通过训练近 1300 个模型，系统性地推导出考虑压缩率的神经缩放定律，以确定信息粒度（每词元字节数）如何影响最优计算分配。 **为什么重要？** 这项工作证明了广泛接受的“模型参数每 20 个词元”这一启发式方法是特定子词分词器带来的假象。建立基于字节且与分词器无关的缩放定律，为跨语言和模态最大化计算效率提供了稳健框架。 **执行摘要：** 对于优化大规模预训练流程的研究团队而言，分词方案常被当作静态预处理步骤。本文重新将分词定义为动态缩放变量。通过优化“压缩率”（信息密度），作者证明训练数据应按*字节*而非词元与模型参数成比例缩放。此外，他们揭示最优压缩率依赖于计算预算，随着 FLOP 预算增加需要更低的压缩率，从而为训练高效、超大规模多语言基础模型提供了新蓝图。 [](https://substackcdn.com/image/fetch/$s_!FDxH!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F87babda4-43d1-4389-883a-172a4cbe0fe9_5504x3072.jpeg) 基础模型的缩放很大程度上由既定缩放定律主导，最著名的启发式方法源自《训练计算最优的大型语言模型》(https://arxiv.org/abs/2203.15556)（Chinchilla），该定律提出每模型参数大约对应 20 个训练词元的最优比例。然而，这一启发式方法的一个关键盲点在于它依赖于固定的分词方案。严格以词元表达数据量忽略了每个词元所代表的可变信息密度，实际上将基本缩放行为绑定到了字节对编码（BPE）分词器的任意机制上。本研究将词元本身作为变量，以确定缩放行为中真正的不变量，从而揭示出流行的分词器在多大程度上固有地扭曲了计算分配。

Compute Optimal Tokenization (2分钟阅读)

相似文章

随机分词法提高模型鲁棒性

(1D) 有序词元实现高效测试时搜索

从词元到词元对：临床预测中大语言模型的提示高效压缩

神经语言模型的缩放规律

通过令牌剪枝优化韩语中心的大语言模型

提交意见反馈