通过字节级模拟解耦子词分词对语言模型训练的益处

Hugging Face Daily Papers 论文

摘要

本文通过进行受控的字节级预训练实验,研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素,如训练吞吐量以及将子词边界作为语言先验的整合。

子词分词是现代大型语言模型(LLMs)的重要组成部分,但其对训练效率和模型性能的具体贡献仍知之甚少。在这项工作中,我们通过在受控的字节级预训练流程中隔离子词分词的效果,解耦了其影响。我们制定并测试了多个维度的假设,包括样本吞吐量、词汇量缩放以及子词边界的语言先验。通过在字节级设置中模拟这些效果,我们加深了对子词模型为何优于原始字节模型的理解,并为改进未来字节级和子词模型的预训练提供了见解。具体来说,我们的实验强调了增加训练吞吐量以及将子词边界作为显式先验或归纳偏差进行整合的关键作用。
查看原文
查看缓存全文

缓存时间: 2026/05/21 22:12

论文页面 - 通过字节级仿真解耦子词分词对语言模型训练的益处

来源:https://huggingface.co/papers/2604.27263

摘要

研究通过受控的字节级预训练实验,探究子词分词对LLM训练效率和性能的影响,揭示了训练吞吐量与语言先验中的关键因素。

子词分词(https://huggingface.co/papers?q=Subword%20tokenization)是现代大型语言模型(https://huggingface.co/papers?q=large%20language%20models(LLM))的重要组成部分,但其对训练效率和模型性能的具体贡献仍知之甚少。在这项工作中,我们通过将子词分词的效果隔离在受控的字节级预训练(https://huggingface.co/papers?q=byte-level%20pretraining)流程中,对其影响进行解耦。我们围绕样本吞吐量(https://huggingface.co/papers?q=sample%20throughput)、词汇表扩展(https://huggingface.co/papers?q=vocabulary%20scaling)以及子词边界的语言先验(https://huggingface.co/papers?q=linguistic%20prior)等多个维度,构建并检验了相关假设。通过在字节级环境中模拟这些效果,我们深化了对子词模型为何优于原始字节模型的理解,并为改进未来字节级和子词模型的预训练提供了见解。具体而言,我们的实验凸显了增加训练吞吐量以及将子词边界作为显式先验或归纳偏置(https://huggingface.co/papers?q=inductive%20biases)纳入的关键作用。

查看arXiv页面(https://arxiv.org/abs/2604.27263)查看PDF(https://arxiv.org/pdf/2604.27263)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.27263)

在你的Agent中获取这篇论文:

hf papers read 2604\.27263

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型链接至此论文

请在模型README.md中引用arxiv.org/abs/2604.27263以将其链接至此页面。

引用此论文的数据集0

暂无数据集链接至此论文

请在数据集README.md中引用arxiv.org/abs/2604.27263以将其链接至此页面。

引用此论文的Spaces0

暂无Space链接至此论文

请在Space README.md中引用arxiv.org/abs/2604.27263以将其链接至此页面。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加至一个收藏集(https://huggingface.co/new-collection)以将其链接至此页面。

相似文章

跨分词器LLM蒸馏:基于字节级接口的方法

Hugging Face Daily Papers

本文提出字节级蒸馏(BLD),一种简单的跨分词器知识迁移方法,通过在共享的字节级接口上操作,在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。

随机分词法提高模型鲁棒性

arXiv cs.CL

本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。

使用Token叠加的高效预训练

Hugging Face Daily Papers

Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。

论词汇性在大语言模型中的持续影响

arXiv cs.CL

本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。