multilingual-nlp

标签

Cards List
#multilingual-nlp

非洲语言税:量化前沿大语言模型中分词非洲语言的成本、延迟和上下文惩罚

arXiv cs.CL · 2天前 缓存

本文系统量化了20种非洲语言在11个前沿和开源分词器上的分词惩罚,发现推理成本和延迟最高可达8.9倍,有效上下文窗口仅为英语的11%,突显了子词词汇表中编码的结构性数字鸿沟。

0 人收藏 0 人点赞
#multilingual-nlp

超越困惑度:面向字节感知语言模型中的UTF-8有效性

arXiv cs.CL · 2026-06-15 缓存

本文研究了字节级语言模型中训练规模与UTF-8生成可靠性之间的关系,发现UTF-8有效性收敛的速度比困惑度大约慢一倍。作者引入了用于隔离结构有效性的评估协议,并表明可靠的UTF-8生成是一种需要单独评估的独特能力。

0 人收藏 0 人点赞
#multilingual-nlp

超越目录计数:低资源多语言NLP中的数据集可见性不对称

arXiv cs.CL · 2026-05-19 缓存

本文介绍了资源密度指数(RDI),并利用LLM辅助的引文挖掘揭示,许多语言在目录记录中看似数据贫乏,但在研究文献中却有大量的数据集活动,凸显了低资源多语言NLP中的可见性不对称。

0 人收藏 0 人点赞
#multilingual-nlp

卡在独特的NLP难题上[D]

Reddit r/MachineLearning · 2026-04-21

开发者寻求在不依赖大模型的情况下对英-印混写文本进行分类的建议,因为句子变换器在处理罗马化印地语时完全失效。

0 人收藏 0 人点赞
#multilingual-nlp

多语言思维,而非更难的思维:教授推理模型代码切换的数据高效框架

arXiv cs.CL · 2026-04-20 缓存

本文介绍了一个数据高效的微调框架,用于教授推理模型有效地进行代码切换(混合使用多种语言),证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为,并开发了促进有益代码切换模式的干预措施。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈