标签
本文在平行文本上测量了25种欧洲语言的分词器标记率,发现从英语到希腊语/马耳他语的差距达到2.5倍,其中乌克兰语承受15-18%的惩罚。研究证明了标记率排名的领域不变性,分析了子词碎片化,并评估了跨语言少样本效应。
在乌克兰法律文本上对七个基础模型进行了基准测试,发现分词器通量差异达1.6倍,少样本提示会降低性能,成本效益分析表明NVIDIA Nemotron Super 3优于更大模型。