Compute Optimal Tokenization (2分钟阅读)

TLDR AI 论文

摘要

本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。

研究人员通过训练近1300个模型,推导出压缩感知的神经缩放定律,揭示了每词元字节数如何影响计算分配。这挑战了将模型按每参数20个词元进行缩放的启发式方法,表明该方法是特定分词器导致的。研究建议缩放应基于字节而非词元,以在多样语言中实现更高的计算效率。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/14 00:10

# 计算最优分词 来源:https://arxiviq.substack.com/p/compute-optimal-tokenization **作者:** *Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer* **论文:** https://arxiv.org/abs/2605.01188v1 **代码:** https://co-tok.github.io/ **做了什么?** 作者通过训练近 1300 个模型,系统性地推导出考虑压缩率的神经缩放定律,以确定信息粒度(每词元字节数)如何影响最优计算分配。 **为什么重要?** 这项工作证明了广泛接受的“模型参数每 20 个词元”这一启发式方法是特定子词分词器带来的假象。建立基于字节且与分词器无关的缩放定律,为跨语言和模态最大化计算效率提供了稳健框架。 **执行摘要:** 对于优化大规模预训练流程的研究团队而言,分词方案常被当作静态预处理步骤。本文重新将分词定义为动态缩放变量。通过优化“压缩率”(信息密度),作者证明训练数据应按*字节*而非词元与模型参数成比例缩放。此外,他们揭示最优压缩率依赖于计算预算,随着 FLOP 预算增加需要更低的压缩率,从而为训练高效、超大规模多语言基础模型提供了新蓝图。 [](https://substackcdn.com/image/fetch/$s_!FDxH!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F87babda4-43d1-4389-883a-172a4cbe0fe9_5504x3072.jpeg) 基础模型的缩放很大程度上由既定缩放定律主导,最著名的启发式方法源自《训练计算最优的大型语言模型》(https://arxiv.org/abs/2203.15556)(Chinchilla),该定律提出每模型参数大约对应 20 个训练词元的最优比例。然而,这一启发式方法的一个关键盲点在于它依赖于固定的分词方案。严格以词元表达数据量忽略了每个词元所代表的可变信息密度,实际上将基本缩放行为绑定到了字节对编码(BPE)分词器的任意机制上。本研究将词元本身作为变量,以确定缩放行为中真正的不变量,从而揭示出流行的分词器在多大程度上固有地扭曲了计算分配。

相似文章

随机分词法提高模型鲁棒性

arXiv cs.CL

本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。

(1D) 有序词元实现高效测试时搜索

Hugging Face Daily Papers

# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始

神经语言模型的缩放规律

OpenAI Blog

基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。