low-resource-languages

#low-resource-languages

DocAtlas：跨越80多种语言的多语言文档理解

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

DocAtlas是一个框架，通过差异渲染和合成生成，构建了覆盖82种语言的高保真OCR数据集和基准。它表明，直接偏好优化能够改善多语言模型的适配，而不会降低基础语言的性能。

0 人收藏 0 人点赞

#low-resource-languages

MultiSoc-4D：用于诊断孟加拉语社交媒体封闭集大语言模型标注中指令诱导标签崩溃的基准

arXiv cs.CL ↗ · 2026-05-11 缓存

本文介绍了 MultiSoc-4D，这是一个用于诊断大语言模型在标注孟加拉语社交媒体数据时出现的指令诱导标签崩溃问题的基准测试。研究揭示，大语言模型系统性地倾向于使用默认标签，导致对仇恨言论和讽刺等少数类别的检测不足。

0 人收藏 0 人点赞

#low-resource-languages

TajPersLexon：用于跨脚本低资源NLP的塔吉克-波斯语词汇资源与混合模型

arXiv cs.CL ↗ · 2026-05-11 缓存

本文介绍了 TajPersLexon，这是一个用于塔吉克-波斯语跨脚本自然语言处理的词汇资源，并通过将混合模型与神经基线模型进行基准测试，展示了其在低资源环境下的有效处理能力。

0 人收藏 0 人点赞

#low-resource-languages

面向多语言推理的跨语言在线策略自蒸馏

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

本文提出了跨语言在线策略自蒸馏（COPSD）方法，该方法通过共享的学生-教师架构，将高资源语言的推理能力迁移到低资源语言中。在17种非洲语言上的实验表明，该方法的数学推理能力和答案格式遵循度均得到显著提升，性能优于组相对策略优化（GRPO）。

0 人收藏 0 人点赞

#low-resource-languages

面向低资源口语方言的线性语义分割

arXiv cs.CL ↗ · 2026-05-08 缓存

本文引入了一个针对低资源阿拉伯语方言的语义分割基准，并提出了一种模型，该模型在会话式语音上的性能优于标准基线模型。

0 人收藏 0 人点赞

#low-resource-languages

健康素养标注中的结构化分歧：认识论稳定性、概念难度与按一致性分层推断

arXiv cs.CL ↗ · 2026-04-23 缓存

一项针对6,323条COVID-19开放回答的分级健康素养标注的大规模研究表明，分歧更多源于任务的概念难度而非标注者身份，主张采用视角主义建模以实现有效推断。

0 人收藏 0 人点赞

#low-resource-languages

文字穿越时间：转写在NLP中演化的全景综述

arXiv cs.CL ↗ · 2026-04-22 缓存

全面梳理转写如何打破跨语言NLP的“文字壁垒”，提升低资源语言迁移学习效果，并给出落地实践指南。

0 人收藏 0 人点赞

#low-resource-languages

并非放之四海而皆准：多语言大语言模型中从固定提示到可学习路由的演进

arXiv cs.CL ↗ · 2026-04-21 缓存

# 并非放之四海而皆准：多语言大语言模型中从固定提示到可学习路由的演进来源：[https://arxiv.org/html/2604.16937](https://arxiv.org/html/2604.16937) Wei-Chi Wu, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen α 台湾大学电脑科学与资讯工程学系，台湾 β 中央研究院资讯科学研究所，台湾 γ 台湾大学人工智能研究中心（AINTU），台湾 wcwu@c

0 人收藏 0 人点赞

#low-resource-languages

语言模型碎片整合：基于可解释性的词汇扩展方法

arXiv cs.CL ↗ · 2026-04-21 缓存

# 基于可解释性的词汇扩展方法来源：[https://arxiv.org/html/2604.16656](https://arxiv.org/html/2604.16656) ## 语言模型碎片整合：基于可解释性的词汇扩展方法 Maitrey Mehta¹, Nishant Subramani², Zhichao Xu¹, Ashim Gupta¹, Vivek Srikumar¹ 1 Kahlert School of Computing, University of Utah 2 Language Technologies Institute, Carnegie Mellon University {maitrey,svivek}@cs.utah.edu ###### 摘要所有语言生而平等；但在词元化方面，某些语言更为平等。词元是当代大语言模型访问成本和延迟的隐藏货币。然而，许多使用非拉丁文字书写的语言却面临着糟糕的“汇率”：大语言模型需要用数倍的词元来编码与英语相同的信息。我们的分析表明，这个被称为“词元过度碎片化”的问题在现代开源大语言模型中依然存在。标准解决方案是词汇扩展，即添加模型词汇库中缺失的目标语言词汇。在这项工作中，我们全面研究并推进基于可解释性的词汇扩展这一新研究方向。我们聚焦于词汇扩展过程中的两个核心决策：应该添加哪些词汇？以及如何初始化它们对应的输入和输出嵌入？首先，我们质疑使用基于频率的方法来选择待添加候选词汇的传统做法（这一决策长期以来被视为理所当然），并证明基于可解释性的方法能够提供更优的性能-词元效率权衡。其次，我们通过展示对于多种非拉丁文字语言相较于基线初始化方法取得的大幅提升（约20分），加强了基于可解释性的嵌入初始化的可行性。我们发现了“子词去词元化”现象，即模型在多层网络中逐步将碎片化的子词词元合并为更大的子词。基于对这一现象的分析，我们提出了FragMend，以进一步突破基于可解释性的扩展的效率上限。我们通过与强基线方法的比较验证了FragMend的有效性，并对其设计选择进行了广泛分析。

0 人收藏 0 人点赞

#low-resource-languages