Compute Optimal Tokenization (2分钟阅读)

TLDR AI 论文

摘要

本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。

研究人员通过训练近1300个模型,推导出压缩感知的神经缩放定律,揭示了每词元字节数如何影响计算分配。这挑战了将模型按每参数20个词元进行缩放的启发式方法,表明该方法是特定分词器导致的。研究建议缩放应基于字节而非词元,以在多样语言中实现更高的计算效率。
查看原文
查看缓存全文

缓存时间: 2026/05/14 00:10

# 计算最优分词 来源:https://arxiviq.substack.com/p/compute-optimal-tokenization **作者:** *Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer* **论文:** https://arxiv.org/abs/2605.01188v1 **代码:** https://co-tok.github.io/ **做了什么?** 作者通过训练近 1300 个模型,系统性地推导出考虑压缩率的神经缩放定律,以确定信息粒度(每词元字节数)如何影响最优计算分配。 **为什么重要?** 这项工作证明了广泛接受的“模型参数每 20 个词元”这一启发式方法是特定子词分词器带来的假象。建立基于字节且与分词器无关的缩放定律,为跨语言和模态最大化计算效率提供了稳健框架。 **执行摘要:** 对于优化大规模预训练流程的研究团队而言,分词方案常被当作静态预处理步骤。本文重新将分词定义为动态缩放变量。通过优化“压缩率”(信息密度),作者证明训练数据应按*字节*而非词元与模型参数成比例缩放。此外,他们揭示最优压缩率依赖于计算预算,随着 FLOP 预算增加需要更低的压缩率,从而为训练高效、超大规模多语言基础模型提供了新蓝图。 [](https://substackcdn.com/image/fetch/$s_!FDxH!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F87babda4-43d1-4389-883a-172a4cbe0fe9_5504x3072.jpeg) 基础模型的缩放很大程度上由既定缩放定律主导,最著名的启发式方法源自《训练计算最优的大型语言模型》(https://arxiv.org/abs/2203.15556)(Chinchilla),该定律提出每模型参数大约对应 20 个训练词元的最优比例。然而,这一启发式方法的一个关键盲点在于它依赖于固定的分词方案。严格以词元表达数据量忽略了每个词元所代表的可变信息密度,实际上将基本缩放行为绑定到了字节对编码(BPE)分词器的任意机制上。本研究将词元本身作为变量,以确定缩放行为中真正的不变量,从而揭示出流行的分词器在多大程度上固有地扭曲了计算分配。

相似文章

寻找最优分词器

Hacker News Top

这篇博客文章提出一个使用整数线性规划的算法来计算语言模型的最优分词器,并将其与解决旅行商问题相类比。文中指出,虽然结果在理论上很有趣,但实际的分词器已经接近最优,并且该方法可能不具备良好的泛化能力。

Token 最大化

Reddit r/singularity

讨论在大型语言模型中最大化 Token 使用以提高效率和输出质量的策略与技术。

随机分词法提高模型鲁棒性

arXiv cs.CL

本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。

利用自引导标记化平衡图像压缩与生成

arXiv cs.LG

介绍了SelfBootTok,一种自引导标记化方法,它将全局和局部信息分离,使生成器计算量减少约40%,仅用64个标记即实现了1.56的gFID新最先进水平。

字节级模型

Reddit r/LocalLLaMA

讨论了字节级分词器是否在精确任务(如区分相似名称、计数字符和大小写敏感)上优于子词分词器,并询问当前推荐。