vocabulary-expansion

#vocabulary-expansion

语言模型碎片整合：基于可解释性的词汇扩展方法

arXiv cs.CL ↗ · 2026-04-21 缓存

# 基于可解释性的词汇扩展方法来源：[https://arxiv.org/html/2604.16656](https://arxiv.org/html/2604.16656) ## 语言模型碎片整合：基于可解释性的词汇扩展方法 Maitrey Mehta¹, Nishant Subramani², Zhichao Xu¹, Ashim Gupta¹, Vivek Srikumar¹ 1 Kahlert School of Computing, University of Utah 2 Language Technologies Institute, Carnegie Mellon University {maitrey,svivek}@cs.utah.edu ###### 摘要所有语言生而平等；但在词元化方面，某些语言更为平等。词元是当代大语言模型访问成本和延迟的隐藏货币。然而，许多使用非拉丁文字书写的语言却面临着糟糕的“汇率”：大语言模型需要用数倍的词元来编码与英语相同的信息。我们的分析表明，这个被称为“词元过度碎片化”的问题在现代开源大语言模型中依然存在。标准解决方案是词汇扩展，即添加模型词汇库中缺失的目标语言词汇。在这项工作中，我们全面研究并推进基于可解释性的词汇扩展这一新研究方向。我们聚焦于词汇扩展过程中的两个核心决策：应该添加哪些词汇？以及如何初始化它们对应的输入和输出嵌入？首先，我们质疑使用基于频率的方法来选择待添加候选词汇的传统做法（这一决策长期以来被视为理所当然），并证明基于可解释性的方法能够提供更优的性能-词元效率权衡。其次，我们通过展示对于多种非拉丁文字语言相较于基线初始化方法取得的大幅提升（约20分），加强了基于可解释性的嵌入初始化的可行性。我们发现了“子词去词元化”现象，即模型在多层网络中逐步将碎片化的子词词元合并为更大的子词。基于对这一现象的分析，我们提出了FragMend，以进一步突破基于可解释性的扩展的效率上限。我们通过与强基线方法的比较验证了FragMend的有效性，并对其设计选择进行了广泛分析。

0 人收藏 0 人点赞

vocabulary-expansion

语言模型碎片整合：基于可解释性的词汇扩展方法

提交意见反馈