low-resource-languages

#low-resource-languages

从词汇到AI：面向低资源语言专业对话系统的结构化数据流水线

arXiv cs.CL ↗ · 18小时前缓存

提出了一种系统方法论，将印地语WordNet转换为125万条指令-响应对，并利用LoRA对12B参数语言模型进行微调，展示了在低资源语言专业对话系统中教学效果的显著提升。

0 人收藏 0 人点赞

#low-resource-languages

面向低资源语言的文本去毒化系统Tatoxa：以鞑靼语为例

arXiv cs.CL ↗ · 昨天缓存

介绍了Tatoxa，一个用于鞑靼语文本去毒化的最先进系统，优于现有的大语言模型。引入了一个新数据集，并表明跨语言迁移的效果比使用原生数据差。

0 人收藏 0 人点赞

#low-resource-languages

SARA: 通过语义锚定路由对齐释放混合专家模型中的多语言知识

arXiv cs.CL ↗ · 昨天缓存

本文提出了SARA框架，该框架利用Jensen-Shannon散度对齐多语言输入的路由分布，以改善稀疏混合专家模型中低资源语言的专家共享。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct上的实验显示在多语言基准上有改进。

0 人收藏 0 人点赞

#low-resource-languages

面向ASR错误校正的误差感知TF-IDF检索增强生成

arXiv cs.CL ↗ · 昨天缓存

本文提出了一种基于误差感知TF-IDF检索增强生成的框架，用于校正自动语音识别错误，在波斯语FLEURS数据集上取得了显著的准确率提升，且推理延迟几乎为零。

0 人收藏 0 人点赞

#low-resource-languages

非洲语言税：量化前沿大语言模型中分词非洲语言的成本、延迟和上下文惩罚

arXiv cs.CL ↗ · 2天前缓存

本文系统量化了20种非洲语言在11个前沿和开源分词器上的分词惩罚，发现推理成本和延迟最高可达8.9倍，有效上下文窗口仅为英语的11%，突显了子词词汇表中编码的结构性数字鸿沟。

0 人收藏 0 人点赞

#low-resource-languages

QuechuaTok：形态边界准确率作为黏着型低资源语言分词器评估的必要指标

arXiv cs.CL ↗ · 2天前缓存

本文介绍了QuechuaTok，一个用于评估南克丘亚语分词策略的基准，并引入了形态边界准确率（MorphAcc）作为必要指标。结果表明，BPE实现了低碎片率但形态准确性差，而基于形态感知的PRPE分词器达到了83%的MorphAcc，表明仅凭碎片率不足以评估黏着型语言的分词器。

0 人收藏 0 人点赞

#low-resource-languages

想要更好的合成数据？引导它：用于低资源语言生成的激活引导

arXiv cs.CL ↗ · 2026-06-18 缓存

本文研究了激活引导作为替代少样本提示的方法，用于生成低资源语言的合成数据。作者提出了LanguageSteering和QualitySteering策略，表明在早期层进行引导可以提高数据多样性并改善下游模型性能。

0 人收藏 0 人点赞

#low-resource-languages

预训练的自监督语音模型能够识别未见过的辅音

arXiv cs.CL ↗ · 2026-06-11 缓存

本文研究了预训练的自监督语音模型（如Wav2Vec2和HuBERT）是否能够准确识别咔嗒辅音（click consonants），这些辅音在训练数据中较为罕见，通过在科伊桑语言（Khoisan languages）上进行微调来测试。结果表明，这些模型识别咔嗒辅音的准确率高于非咔嗒辅音，表明它们能够泛化到不常见的音素。

0 人收藏 0 人点赞

#low-resource-languages