标签
提出了一种系统方法论,将印地语WordNet转换为125万条指令-响应对,并利用LoRA对12B参数语言模型进行微调,展示了在低资源语言专业对话系统中教学效果的显著提升。
介绍了Tatoxa,一个用于鞑靼语文本去毒化的最先进系统,优于现有的大语言模型。引入了一个新数据集,并表明跨语言迁移的效果比使用原生数据差。
本文提出了SARA框架,该框架利用Jensen-Shannon散度对齐多语言输入的路由分布,以改善稀疏混合专家模型中低资源语言的专家共享。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct上的实验显示在多语言基准上有改进。
本文提出了一种基于误差感知TF-IDF检索增强生成的框架,用于校正自动语音识别错误,在波斯语FLEURS数据集上取得了显著的准确率提升,且推理延迟几乎为零。
本文系统量化了20种非洲语言在11个前沿和开源分词器上的分词惩罚,发现推理成本和延迟最高可达8.9倍,有效上下文窗口仅为英语的11%,突显了子词词汇表中编码的结构性数字鸿沟。
本文介绍了QuechuaTok,一个用于评估南克丘亚语分词策略的基准,并引入了形态边界准确率(MorphAcc)作为必要指标。结果表明,BPE实现了低碎片率但形态准确性差,而基于形态感知的PRPE分词器达到了83%的MorphAcc,表明仅凭碎片率不足以评估黏着型语言的分词器。
本文研究了激活引导作为替代少样本提示的方法,用于生成低资源语言的合成数据。作者提出了LanguageSteering和QualitySteering策略,表明在早期层进行引导可以提高数据多样性并改善下游模型性能。
本文研究了预训练的自监督语音模型(如Wav2Vec2和HuBERT)是否能够准确识别咔嗒辅音(click consonants),这些辅音在训练数据中较为罕见,通过在科伊桑语言(Khoisan languages)上进行微调来测试。结果表明,这些模型识别咔嗒辅音的准确率高于非咔嗒辅音,表明它们能够泛化到不常见的音素。
Translate-R1引入了一种基于强化学习的方法,用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数,学会决定何时翻译输入,从而在多种语言之间实现帕累托最优权衡。
本文提出了一种模块化方法,通过冻结嵌入并调整模型其余部分,将预训练语言模型适配到低资源语言,在苏格兰盖尔语、爱尔兰语和克丘亚语的NLU任务上展示了改进效果。
本文提出了一种新的多语言共指消解流水线,利用从英语到低资源语言的循环一致性机器翻译生成训练数据,并通过反向翻译和BERT相似性进行验证。在四种低资源语言上的实验表明,该方法带来了显著的性能提升,使得在没有现有语料库的语言中也能实现准确的共指消解。
GlossAssist 是一款面向低资源语言记录场景的行间注释文本(IGT)语料库创建工具,以 CWoMP 检索式架构为核心,并结合主动学习反馈机制,使标注者在进行纠错时无需重新训练模型即可持续提升预测质量。
本文提出了一种强化学习方法,使大型语言模型能够通过利用上下文中的语言知识来翻译未见过的语言,其表现优于上下文学习和监督微调。
本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。
本综述对两种西非语言——豪萨语和丰贝语的公开文本与语音资源进行了编目,评估了其在NLP开发中的可用性、质量和差距,并提供了针对特定任务的建议。
本文对电信领域高棉语检索增强问答中的嵌入模型和生成器后端进行了比较评估,发现BGE-M3在检索方面表现最佳,而生成器的优势因指标而异。
佛罗里达大学Gators团队提交至AmericasNLP 2026共享任务,该任务涉及面向土著语言的文化图像描述。我们采用双阶段流水线:使用Qwen2.5-VL生成西班牙语中间描述,然后通过检索增强的多示例提示,利用Gemini 2.5 Flash生成目标语言描述。与基线相比,取得了显著提升。
本文介绍了资源密度指数(RDI),并利用LLM辅助的引文挖掘揭示,许多语言在目录记录中看似数据贫乏,但在研究文献中却有大量的数据集活动,凸显了低资源多语言NLP中的可见性不对称。
介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR,指出了微调中的录音室偏差,并提出了R-MFT以高效提升自发言语性能。
本文介绍了 LLiMba,这是一个基于 Qwen2.5 适配而来的3B参数模型,旨在支持撒丁语。该模型在单张消费级 GPU 上通过继续预训练和有监督微调完成训练。文章评估了多种 LoRA 配置,发现适配器容量对低资源语言适配的性能和事实准确性有显著影响。