标签
本文在平行文本上测量了25种欧洲语言的分词器标记率,发现从英语到希腊语/马耳他语的差距达到2.5倍,其中乌克兰语承受15-18%的惩罚。研究证明了标记率排名的领域不变性,分析了子词碎片化,并评估了跨语言少样本效应。