通过字节级模拟解耦子词分词对语言模型训练的益处

Hugging Face Daily Papers 2026/05/14 00:00 论文

摘要

本文通过进行受控的字节级预训练实验，研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素，如训练吞吐量以及将子词边界作为语言先验的整合。

子词分词是现代大型语言模型（LLMs）的重要组成部分，但其对训练效率和模型性能的具体贡献仍知之甚少。在这项工作中，我们通过在受控的字节级预训练流程中隔离子词分词的效果，解耦了其影响。我们制定并测试了多个维度的假设，包括样本吞吐量、词汇量缩放以及子词边界的语言先验。通过在字节级设置中模拟这些效果，我们加深了对子词模型为何优于原始字节模型的理解，并为改进未来字节级和子词模型的预训练提供了见解。具体来说，我们的实验强调了增加训练吞吐量以及将子词边界作为显式先验或归纳偏差进行整合的关键作用。

查看原文

查看缓存全文

缓存时间: 2026/05/21 22:12

论文页面 - 通过字节级仿真解耦子词分词对语言模型训练的益处

来源：https://huggingface.co/papers/2604.27263

摘要

研究通过受控的字节级预训练实验，探究子词分词对LLM训练效率和性能的影响，揭示了训练吞吐量与语言先验中的关键因素。

子词分词（https://huggingface.co/papers?q=Subword%20tokenization）是现代大型语言模型（https://huggingface.co/papers?q=large%20language%20models（LLM））的重要组成部分，但其对训练效率和模型性能的具体贡献仍知之甚少。在这项工作中，我们通过将子词分词的效果隔离在受控的字节级预训练（https://huggingface.co/papers?q=byte-level%20pretraining）流程中，对其影响进行解耦。我们围绕样本吞吐量（https://huggingface.co/papers?q=sample%20throughput）、词汇表扩展（https://huggingface.co/papers?q=vocabulary%20scaling）以及子词边界的语言先验（https://huggingface.co/papers?q=linguistic%20prior）等多个维度，构建并检验了相关假设。通过在字节级环境中模拟这些效果，我们深化了对子词模型为何优于原始字节模型的理解，并为改进未来字节级和子词模型的预训练提供了见解。具体而言，我们的实验凸显了增加训练吞吐量以及将子词边界作为显式先验或归纳偏置（https://huggingface.co/papers?q=inductive%20biases）纳入的关键作用。

查看arXiv页面（https://arxiv.org/abs/2604.27263）查看PDF（https://arxiv.org/pdf/2604.27263）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.27263）

在你的Agent中获取这篇论文：

hf papers read 2604\.27263

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型链接至此论文

请在模型README.md中引用arxiv.org/abs/2604.27263以将其链接至此页面。

引用此论文的数据集0

暂无数据集链接至此论文

请在数据集README.md中引用arxiv.org/abs/2604.27263以将其链接至此页面。

引用此论文的Spaces0

暂无Space链接至此论文

请在Space README.md中引用arxiv.org/abs/2604.27263以将其链接至此页面。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加至一个收藏集（https://huggingface.co/new-collection）以将其链接至此页面。

通过字节级模拟解耦子词分词对语言模型训练的益处

论文页面 - 通过字节级仿真解耦子词分词对语言模型训练的益处

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

跨分词器LLM蒸馏：基于字节级接口的方法

随机分词法提高模型鲁棒性

使用Token叠加的高效预训练

通过令牌剪枝优化韩语中心的大语言模型

论词汇性在大语言模型中的持续影响

提交意见反馈