multilingual-nlp

#multilingual-nlp

非洲语言税：量化前沿大语言模型中分词非洲语言的成本、延迟和上下文惩罚

arXiv cs.CL ↗ · 2天前缓存

本文系统量化了20种非洲语言在11个前沿和开源分词器上的分词惩罚，发现推理成本和延迟最高可达8.9倍，有效上下文窗口仅为英语的11%，突显了子词词汇表中编码的结构性数字鸿沟。

0 人收藏 0 人点赞

#multilingual-nlp

arXiv cs.CL ↗ · 2026-06-15 缓存

本文研究了字节级语言模型中训练规模与UTF-8生成可靠性之间的关系，发现UTF-8有效性收敛的速度比困惑度大约慢一倍。作者引入了用于隔离结构有效性的评估协议，并表明可靠的UTF-8生成是一种需要单独评估的独特能力。

0 人收藏 0 人点赞

#multilingual-nlp

arXiv cs.CL ↗ · 2026-05-19 缓存

本文介绍了资源密度指数（RDI），并利用LLM辅助的引文挖掘揭示，许多语言在目录记录中看似数据贫乏，但在研究文献中却有大量的数据集活动，凸显了低资源多语言NLP中的可见性不对称。

0 人收藏 0 人点赞

#multilingual-nlp

Reddit r/MachineLearning ↗ · 2026-04-21

开发者寻求在不依赖大模型的情况下对英-印混写文本进行分类的建议，因为句子变换器在处理罗马化印地语时完全失效。

0 人收藏 0 人点赞

#multilingual-nlp

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了一个数据高效的微调框架，用于教授推理模型有效地进行代码切换（混合使用多种语言），证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为，并开发了促进有益代码切换模式的干预措施。

0 人收藏 0 人点赞