slavic-languages

标签

Cards List
#slavic-languages

跨25种欧洲语言的Tokenizer税:领域不变性、跨语言少样本效应与乌克兰语惩罚

arXiv cs.CL · 2026-05-26 缓存

本文在平行文本上测量了25种欧洲语言的分词器标记率,发现从英语到希腊语/马耳他语的差距达到2.5倍,其中乌克兰语承受15-18%的惩罚。研究证明了标记率排名的领域不变性,分析了子词碎片化,并评估了跨语言少样本效应。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈