标签
一篇博客文章探讨人类的打字习惯(如拼写错误、速记表达、填充词和空格)如何影响OpenAI和Claude分词器的Token计数,并指出常见的拼写错误可能会增加Token使用量和成本,而不会改变实际语义。
# 分词失败、分布偏移及针对性缓解策略 来源:[https://arxiv.org/html/2604.16787](https://arxiv.org/html/2604.16787) ## 当非正式文本导致自然语言推理失效:分词失败、分布偏移及针对性缓解策略 ###### 摘要 我们研究了在将四种转换操作应用于 SNLI 和 MultiNLI 时,非正式表层形式如何降低 ELECTRA-small(14M)和 RoBERTa-large(355M)的自然语言推理准确率:俚语替换、表情符号替换、Gen-Z 填充词,以及它们的
# 基于可解释性的词汇扩展方法 来源:[https://arxiv.org/html/2604.16656](https://arxiv.org/html/2604.16656) ## 语言模型碎片整合:基于可解释性的词汇扩展方法 Maitrey Mehta¹, Nishant Subramani², Zhichao Xu¹, Ashim Gupta¹, Vivek Srikumar¹ 1 Kahlert School of Computing, University of Utah 2 Language Technologies Institute, Carnegie Mellon University {maitrey,svivek}@cs.utah.edu ###### 摘要 所有语言生而平等;但在词元化方面,某些语言更为平等。词元是当代大语言模型访问成本和延迟的隐藏货币。然而,许多使用非拉丁文字书写的语言却面临着糟糕的“汇率”:大语言模型需要用数倍的词元来编码与英语相同的信息。我们的分析表明,这个被称为“词元过度碎片化”的问题在现代开源大语言模型中依然存在。标准解决方案是词汇扩展,即添加模型词汇库中缺失的目标语言词汇。在这项工作中,我们全面研究并推进基于可解释性的词汇扩展这一新研究方向。我们聚焦于词汇扩展过程中的两个核心决策:应该添加哪些词汇?以及如何初始化它们对应的输入和输出嵌入? 首先,我们质疑使用基于频率的方法来选择待添加候选词汇的传统做法(这一决策长期以来被视为理所当然),并证明基于可解释性的方法能够提供更优的性能-词元效率权衡。其次,我们通过展示对于多种非拉丁文字语言相较于基线初始化方法取得的大幅提升(约20分),加强了基于可解释性的嵌入初始化的可行性。我们发现了“子词去词元化”现象,即模型在多层网络中逐步将碎片化的子词词元合并为更大的子词。基于对这一现象的分析,我们提出了FragMend,以进一步突破基于可解释性的扩展的效率上限。我们通过与强基线方法的比较验证了FragMend的有效性,并对其设计选择进行了广泛分析。
本文提出三元后缀分词(TST)方案,一种确定性分词方案,将数字划分为三位组,并附加显式的数量级标记,以改进大语言模型的数值推理能力。该方法通过在标记级别提供透明的数量级关系,解决了标准分词器中数字分割不一致的问题,并提供两种可扩展词汇量的实现变体。
本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。
# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始