标签
Riazi-8B是一个针对数学推理微调的乌尔都语大语言模型,通过在乌尔都语思维链数据上持续预训练和监督微调,在MGSM-Urdu上实现了性能提升。
本文介绍了首个公开的多模态数据集,包含100个土耳其诈骗和良性电话通话,评估了七种大语言模型在原始音频、ASR转录和人工纠正转录下的表现。结果表明,基于转录的输入优于直接音频,凸显了在低资源语言中进行包容性AI安全研究的必要性。
本文提出了一种面向低资源阿尔及利亚方言社交媒体内容的端到端混合谣言检测框架,通过结合Transformer嵌入和经典分类器,达到了0.84的F1分数。
UrduMMLU是一个新基准测试,包含来自本土教育材料的26,431道多项选择题,涵盖26个学科,用于评估大语言模型在乌尔都语理解上的表现。对30个大语言模型的评估显示,Gemini-3.5-Flash表现最佳,而开源模型和区域特定学科仍构成重大挑战。
本文评估了四种用于高棉语农业文档检索增强生成(RAG)的文本分块策略,发现基于字符的递归分块(300字符)在检索和相关性方面表现最佳。
本文提出使用基于语义奖励的强化学习(通过GRPO)来将LLM扩展到低资源语言,避免了典型的灾难性遗忘对齐代价,展示了相比监督微调更好的语义质量和迁移性。
研究者开发KokborokMT,一款面向低资源语言Kokborok的神经机器翻译系统,通过在36k句对平行语料上微调NLLB-200,在en→trp方向取得17.30 BLEU分,trp→en方向达38.56。
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。