标签
本文提出一种KAN增强的BiGRU架构,用于对孟加拉国的多语言法律文档进行分类和摘要生成,取得了适中的准确率和ROUGE分数,并证明KAN模块相比基线BiGRU提升了分类准确率。
本文提出了embeddingmagibu-200m,一个专注于土耳其语的句子嵌入模型,通过跨语言分词器手术和离线蒸馏构建,在土耳其语基准测试中取得了强劲性能,同时实现了成本与质量的平衡。
本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。
开发了一个深度学习框架,用于分析从拉丁语到罗曼语族的语法性别演变,重点是利用词汇和上下文分析处理低资源历史场景。
本文介绍了一种可复现的流水线,用于构建面向Katharevousa希腊语议会文本的Universal Dependencies风格解析资源,包括OCR重建、LLM辅助标注以及多个解析器的评估。最佳模型(XLM-R)达到了0.8893的UPOS准确率和0.5162的LAS,显著优于现成的基线模型。
本文提出了一种知识感知的Text-to-SQL框架,利用知识蒸馏在低资源环境下通过构建任务特定的知识库并生成合成训练数据来提升性能。在七个基准上的实验表明,该方法带来了显著的改进,尤其是对于开源模型。
本文介绍BLADE,一个文化对齐的指令微调数据集,包含4,196个交互对,用于修复多语言孟加拉语生成中的敬语失误和语用差距。在此数据集上微调DeepSeek-8B和LLaMA-3.2-3B等模型,在结构保真度和敬语对齐方面取得了显著改进。
本文介绍了CLD,一种基于凸优化的轻量级语言检测头(用于ASR),在不到100个训练样本下实现97-98%的准确率,同时将计算成本降低13倍,解决了5种语言和24种子方言的口音和方言鲁棒性问题。
DPR-BAG 是一种无需训练、零样本的框架,通过将全文分解为修辞层面、使用 LLM 对每个层面进行摘要并精炼以提高连贯性,从而生成连贯的生物医学摘要,在保持事实一致性的同时,新颖性优于基线方法。
本文提出一种多轮提示验证方法,以提升量化LLM(LLaMA-3.1 8B)在定性分析中的性能,减少幻觉,并在不同量化级别(8位、4位、3位、2位)下提高稳定性。
这项批判性综述审视了低资源NLP评估中的注释稀缺悖论——模型快速扩展的速度超过了真实评估所需的人类基础设施,并讨论了新兴应对措施在公平性和有效性方面的权衡。
本教程论文概述了如何为低资源语言构建多语言多模态大语言模型,涵盖数据创建、模型对齐、微调和评估,重点提供实用方案和动手资源。
本文介绍了 Adesua,一个基于 WhatsApp 的 AI 教学助手,用于西非的科学教育,它结合了检索增强生成与精选教科书和考试题目。在加纳进行的一项为期 6 个月的可行性研究显示,感知有用性较高(93.75% 的帮助率),但样本量较小。
本文提出了一种结合上下文感知合成增强框架与混合分类模型的方法,以解决从文本中分类心理防御机制时的数据稀缺和类别不平衡问题。该方法在 PsyDefDetect 共享任务基准上取得了显著改进。