标签
DocAtlas是一个框架,通过差异渲染和合成生成,构建了覆盖82种语言的高保真OCR数据集和基准。它表明,直接偏好优化能够改善多语言模型的适配,而不会降低基础语言的性能。
本文介绍了 MultiSoc-4D,这是一个用于诊断大语言模型在标注孟加拉语社交媒体数据时出现的指令诱导标签崩溃问题的基准测试。研究揭示,大语言模型系统性地倾向于使用默认标签,导致对仇恨言论和讽刺等少数类别的检测不足。
本文介绍了 TajPersLexon,这是一个用于塔吉克-波斯语跨脚本自然语言处理的词汇资源,并通过将混合模型与神经基线模型进行基准测试,展示了其在低资源环境下的有效处理能力。
本文提出了跨语言在线策略自蒸馏(COPSD)方法,该方法通过共享的学生-教师架构,将高资源语言的推理能力迁移到低资源语言中。在17种非洲语言上的实验表明,该方法的数学推理能力和答案格式遵循度均得到显著提升,性能优于组相对策略优化(GRPO)。
本文引入了一个针对低资源阿拉伯语方言的语义分割基准,并提出了一种模型,该模型在会话式语音上的性能优于标准基线模型。
一项针对6,323条COVID-19开放回答的分级健康素养标注的大规模研究表明,分歧更多源于任务的概念难度而非标注者身份,主张采用视角主义建模以实现有效推断。
全面梳理转写如何打破跨语言NLP的“文字壁垒”,提升低资源语言迁移学习效果,并给出落地实践指南。
# 并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进 来源:[https://arxiv.org/html/2604.16937](https://arxiv.org/html/2604.16937) Wei-Chi Wu, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen α 台湾大学电脑科学与资讯工程学系,台湾 β 中央研究院资讯科学研究所,台湾 γ 台湾大学人工智能研究中心(AINTU),台湾 wcwu@c
# 基于可解释性的词汇扩展方法 来源:[https://arxiv.org/html/2604.16656](https://arxiv.org/html/2604.16656) ## 语言模型碎片整合:基于可解释性的词汇扩展方法 Maitrey Mehta¹, Nishant Subramani², Zhichao Xu¹, Ashim Gupta¹, Vivek Srikumar¹ 1 Kahlert School of Computing, University of Utah 2 Language Technologies Institute, Carnegie Mellon University {maitrey,svivek}@cs.utah.edu ###### 摘要 所有语言生而平等;但在词元化方面,某些语言更为平等。词元是当代大语言模型访问成本和延迟的隐藏货币。然而,许多使用非拉丁文字书写的语言却面临着糟糕的“汇率”:大语言模型需要用数倍的词元来编码与英语相同的信息。我们的分析表明,这个被称为“词元过度碎片化”的问题在现代开源大语言模型中依然存在。标准解决方案是词汇扩展,即添加模型词汇库中缺失的目标语言词汇。在这项工作中,我们全面研究并推进基于可解释性的词汇扩展这一新研究方向。我们聚焦于词汇扩展过程中的两个核心决策:应该添加哪些词汇?以及如何初始化它们对应的输入和输出嵌入? 首先,我们质疑使用基于频率的方法来选择待添加候选词汇的传统做法(这一决策长期以来被视为理所当然),并证明基于可解释性的方法能够提供更优的性能-词元效率权衡。其次,我们通过展示对于多种非拉丁文字语言相较于基线初始化方法取得的大幅提升(约20分),加强了基于可解释性的嵌入初始化的可行性。我们发现了“子词去词元化”现象,即模型在多层网络中逐步将碎片化的子词词元合并为更大的子词。基于对这一现象的分析,我们提出了FragMend,以进一步突破基于可解释性的扩展的效率上限。我们通过与强基线方法的比较验证了FragMend的有效性,并对其设计选择进行了广泛分析。
本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。
本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。
本文介绍了一个数据高效的微调框架,用于教授推理模型有效地进行代码切换(混合使用多种语言),证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为,并开发了促进有益代码切换模式的干预措施。
冰岛与OpenAI合作,利用GPT-4在数字时代保护和推广冰岛语,同时解决语言灭绝的担忧,创建的资源可能对全球其他低资源语言有所帮助。