ukrainian-nlp

标签

Cards List
#ukrainian-nlp

跨25种欧洲语言的Tokenizer税:领域不变性、跨语言少样本效应与乌克兰语惩罚

arXiv cs.CL · 2026-05-26 缓存

本文在平行文本上测量了25种欧洲语言的分词器标记率,发现从英语到希腊语/马耳他语的差距达到2.5倍,其中乌克兰语承受15-18%的惩罚。研究证明了标记率排名的领域不变性,分析了子词碎片化,并评估了跨语言少样本效应。

0 人收藏 0 人点赞
#ukrainian-nlp

乌克兰法律文本基础模型的分词器通量与零样本性能比较研究

arXiv cs.CL · 2026-05-15 缓存

在乌克兰法律文本上对七个基础模型进行了基准测试,发现分词器通量差异达1.6倍,少样本提示会降低性能,成本效益分析表明NVIDIA Nemotron Super 3优于更大模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈