标签
本文提出三元后缀分词(TST)方案,一种确定性分词方案,将数字划分为三位组,并附加显式的数量级标记,以改进大语言模型的数值推理能力。该方法通过在标记级别提供透明的数量级关系,解决了标准分词器中数字分割不一致的问题,并提供两种可扩展词汇量的实现变体。