tokenizer-fairness

标签

Cards List
#tokenizer-fairness

非洲语言税:量化前沿大语言模型中分词非洲语言的成本、延迟和上下文惩罚

arXiv cs.CL · 2天前 缓存

本文系统量化了20种非洲语言在11个前沿和开源分词器上的分词惩罚,发现推理成本和延迟最高可达8.9倍,有效上下文窗口仅为英语的11%,突显了子词词汇表中编码的结构性数字鸿沟。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈