低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究

arXiv cs.CL 论文

摘要

本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。

arXiv:2602.14517v3 公告类型:替换 摘要:大语言模型(LLM)在数学推理方面取得了显著成果,并日益被部署为教育环境中的辅导和学习支持工具。然而,它们对使用非英语语言(尤其是资源匮乏的语言)学生的可靠性仍然不甚明确。我们通过评估僧伽罗语和泰米尔语(在南亚学校广泛使用但在人工智能研究中代表性不足的两种语言)的数学推理能力来填补这一空白。采用包括基础算术到复杂单位冲突和优化问题的六种数学问题类型分类法,我们评估了四个主要的大语言模型。为避免混淆语言能力与翻译质量的翻译偏差,我们构建了一个平行数据集,其中每个问题由具有扎实数学背景的本地使用者在僧伽罗语和泰米尔语中独立编写,并由流利的英语使用者用英语编写。我们的分析表明,虽然基础算术推理在跨语言间表现稳健,但复杂推理任务在泰米尔语和僧伽罗语中显示出显著性能下降。失败的模式因模型和问题类型而异,表明英语强性能并不能保证跨语言的可靠性能。这些发现对多语言课堂中AI工具的部署具有直接启示意义,并强调了在非英语教育环境中将大语言模型作为数学辅导工具之前进行语言特定评估的必要性。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:31

# 低资源语言的大语言模型数学教育研究:僧伽罗语和泰米尔语研究
来源: https://arxiv.org/html/2602.14517
1st Sukumar Kishanthan 计算机科学与工程系 莫拉图瓦大学 莫拉图瓦,斯里兰卡 [email protected] 2nd Kumar Thushalika 电气与信息工程系 鲁胡纳大学 加勒,斯里兰卡 [email protected] 3rd Buddhi Jayasekara 信息技术与通信科学学院 坦佩雷大学 坦佩雷,芬兰 [email protected] 4th Asela Hevapathige 计算学院 澳大利亚国立大学 堪培拉,澳大利亚 [email protected]

###### 摘要

大语言模型(LLMs)在数学推理方面取得了强劲成果,并越来越多地被部署为教育环境中的辅导和学习支持工具。然而,这些模型对使用非英文语言(特别是低资源语言)的学生的可靠性仍然知之甚少。我们通过评估僧伽罗语和泰米尔语(两种在南亚学校广泛使用但在人工智能研究中代表不足的语言)的数学推理来填补这一空白。使用包含从基础算术到复杂单位冲突和优化问题的六种数学问题类型的分类法,我们评估了四个著名的大语言模型。为了避免混淆语言能力和翻译质量的翻译伪影,我们构建了一个平行数据集,其中每个问题都由具有强数学背景的母语使用者分别以僧伽罗语和泰米尔语进行创作,并由流利使用者以英文创作。我们的分析表明,虽然基础算术推理在语言间转移稳健,但复杂推理任务在泰米尔语和僧伽罗语中显示出明显的性能下降。失败模式因模型和问题类型而异,表明英文强劲表现不能保证在各语言间的可靠表现。这些发现对多语言教室中AI工具的部署有直接影响,强调了在非英文教育环境中采用大语言模型作为数学辅导工具之前需要进行语言特定评估。

参考图1:英文、僧伽罗语和泰米尔语的六种问题类型样本,展示了从基础算术(类型1)到复杂优化(类型6)的分类覆盖范围。

## I 引言

数学应用题求解已被证明是自然语言处理技术的一项挑战性任务,需要模型解析语言描述并执行复杂的多步骤推理[10, 13, 23]。大语言模型(LLMs)在英文数学推理基准上取得了令人印象深刻的成果[31, 20, 28],现已广泛部署为教育环境中的辅导系统、作业助手和自动评分工具[1, 26, 18, 27]。但这些能力对低资源语言(如僧伽罗语和泰米尔语)的适用程度仍未被充分探索。与英文相比,这些南亚语言为LLMs带来了某些挑战。它们存在训练数据稀缺、复杂形态学、广泛的格位标记和灵活的词序等问题,这可能会将数字与操作分离[14, 6]。例如,泰米尔语除了使用阿拉伯数字外还使用不同的数字系统,而僧伽罗语丰富的屈折可以用独特的方式表达定量关系。此外,这些语言通常以不同的方式构造数学关系;英文中的简单前置词短语可能在泰米尔语中需要复杂构造或在僧伽罗语中需要格位标记的名词短语。这为教育提出了一个重要问题:*泰米尔语或僧伽罗语学校的学生能否依靠这些工具获得数学支持,还是性能会以损害其在课堂中实用性的方式下降?*

然而,回答这个问题比看起来要困难。大多数现有评估通过简单地翻译英文数学词问题基准(如GSM8K或MGSM)来测试僧伽罗语和泰米尔语中的模型,从而引入了不自然表述、不一致数字格式和文化不适当背景等伪影,这些伪影混淆了语言能力和翻译质量。除此之外,这些评估通常仅报告总体准确率,将数学推理视为单一能力。这种方法遗漏了重要细节:模型可能在给定语言中擅长基础算术,但在复杂问题上困难重重。本文通过三项贡献解决这两个问题:

1. 1. 我们开发了六种数学应用题类型的分类法,每种都针对特定的数学技能,并由正式的结构属性定义。
2. 2. 我们创建了一个平行数据集,其中问题由具有数学训练的流利使用者分别用英文、僧伽罗语和泰米尔语本地创作,避免翻译伪影。
3. 3. 我们使用零样本提示测试了四个领先的LLMs,分析了跨问题类型和语言的性能,以识别哪些推理技能最容易受到跨语言性能下降的影响。

我们的结果表明,跨语言性能损失在不同类型的数学推理中系统地变化。一些问题类别在语言间转移稳健,而其他问题显示出在模型架构间不同的实质性下降。这些模式在聚合指标下是隐藏的,证明了需要更详细的方法来评估多语言数学推理,以及需要更仔细考虑哪些任务可以安全地在非英文课堂环境中委托给AI工具。

本文的其余部分组织如下。第II节[https://arxiv.org/html/2602.14517#S2]回顾相关工作。第III节[https://arxiv.org/html/2602.14517#S3]描述问题分类法、数据集构建和评估协议。第IV节[https://arxiv.org/html/2602.14517#S4]呈现结果和分析,第V节[https://arxiv.org/html/2602.14517#S5]讨论我们工作的结论、限制和未来方向。

## II 相关工作

### II-A LLMs中的数学推理

LLMs已被评估并在解决数学应用题中表现出令人印象深刻的性能[32, 3, 35]。除了传统的零样本提示外,指导性提示已被证明能进一步增强LLMs在这些问题上的推理能力[30]。然而,LLMs在复杂数学推理上表现欠佳,通常在需要多步骤计算、处理无关信息或应用问题中未明确陈述的真实世界知识的问题上苦恼[25]。

参考图2:四个LLMs、六种问题类型和三种语言间的准确率(%)。深绿色表示更高准确率;红色调突出显示性能下降。

### II-B 多语言数学评估

虽然关于LLMs和数学推理的有影响力的工作主要关注英文,最突出的多语言基准MGSM[24]使用翻译的GSM8K问题[8]在十种语言中评估LLMs。然而,它对翻译的依赖引入了伪影,其单一分数评估混淆了不同的推理技能。最近对多语言LLM行为的调查表明,模型可能不会在每个目标语言中进行真正的推理。Zhao等人[34]发现证据表明LLMs通过以英文为中心的处理路径路由多语言输入,而Etxaniz等人[11]证明了与英文内部翻译表示一致的性能不对称。这些发现提出了关于明显多语言数学能力是否反映真正的跨语言推理还是依赖英文中介处理的问题。

### II-C 僧伽罗语和泰米尔语评估

对LLMs在南亚语言中的评估,特别是僧伽罗语和泰米尔语,仍然有限。Jayakody等人[16]探索了LLM在僧伽罗语中的性能,发现虽然一些模型表现出强大的多语言能力,但其他模型表现不佳,但仍可通过微调改进。Pramodya等人[22]引入了僧伽罗语基准,发现性能有限,特别是在文化丰富的领域,并证明翻译的基准无法捕获特定领域术语和文化背景。泰米尔语中的数学推理评估仍很少探索,现有工作主要关注一般语言任务[7, 21]。

### II-D LLMs作为教育工具

由LLMs驱动的AI辅导系统越来越多地被学校和大学采用。Khan Academy的AI助手等平台使用LLMs逐步指导学生解决问题[12],类似的工具正在许多国家进行测试以提供作业支持和自动评估[17, 29, 2]。许多这些AI辅导系统主要以英文开发,引发了对其在多语言教育环境中有效性的担忧,特别是对泰米尔语和僧伽罗语等低资源语言的担忧。这些语言环境中的学生可能会收到来自未针对其特定需求进行评估的工具的错误指导。这一情况因这些社区中数字资源支持有限而进一步复杂化。因此,在不进行语言特定评估的情况下使用AI辅导工具可能会使其旨在帮助的学生处于不利地位。目前,对僧伽罗语或泰米尔语中数学推理的大语言模型在教育中的评估非常有限,突出了理解其对这些语言有效性方面的关键空白。

我们的工作通过在僧伽罗语和泰米尔语中对多个问题类型的数学推理进行首次系统评估来解决这些限制,同时能够进行细粒度分析,可以为数学推理中语言相关处理模式提供行为证据。

## III 方法

我们提出了评估LLMs中多语言数学推理的框架,涵盖我们的问题分类法、数据集和评估协议。

### III-A 问题分类法

我们将每个数学应用题表示为P=(Q,N,R,A),其中Q是问题文本,N={n₁,n₂,...,nₖ}是数值集合,R是所需操作集合,A是正确答案。我们的六种类型是基于R的结构以及N如何与解决方案相关而定义的。

#### III-A1 类型1:单步问题

|R|=1:N中的数字上的一个算术运算给出A。这作为基线,其中在这里苦恼的模型可能存在基本问题。

#### III-A2 类型2:多步问题

|R|>1,具有顺序操作,其中rᵢ∈R输入到rᵢ₊₁。这些需要在计算链中跟踪中间结果,使其对测试持续数值推理很有用。

#### III-A3 类型3:含有无关信息的问题

问题包含无关数字:Nᵣ⊂N包含相关值,Nₐ=N∖Nᵣ≠∅是干扰项。模型必须识别哪些数字重要才能计算。这在僧伽罗语和泰米尔语中特别有趣,因为复杂的形态学和灵活的词序会使信号-噪声分离更加困难。

#### III-A4 类型4:单位冲突问题

一些相关数量具有不匹配的单位:存在nᵢ,nⱼ∈Nᵣ,其中unit(nᵢ)≠unit(nⱼ)必须一起使用,需要首先进行转换。我们测试问题的语言是否影响模型可靠处理此类转换的方式。

#### III-A5 类型5:逻辑推导问题

这些问题不能通过直接算术解决。文本描述了未知数之间的关系,模型必须从问题中的语言描述建立方程f(x₁,x₂,...,xₘ)=0并求解。主要挑战是将自然语言转换为代数,这可能因语言表达定量关系的方式而异。

#### III-A6 类型6:优化问题

在这些问题中,模型必须在问题文本中定义的约束下找到函数的最大值或最小值。这需要从散文中提取目标和约束、数学上表述问题并应用优化技术。由于复杂性,我们预期这里跨语言差距最大。

注意,在每种类型内,选择问题以反映不同的背景和表面形式,确保对该类型针对的推理能力的广泛覆盖。表I总结了六种问题类型,图1展示了每种类型在三种语言中的示例。

参考图3:雷达图比较每种语言六种问题类型间的模型准确率(%)。从英文到僧伽罗语和泰米尔语的多边形收缩反映了跨语言性能损失。

### III-B 与教育水平的对齐

所提出的分类法对应于教育中数学学习的不同阶段。类型1(单步)和类型2(多步)问题主要出现在小学和初级中学教育中,学生在这里学习基础算术和程序技能。类型3(无关信息)和类型4(单位冲突)通常在中学遇到,需要学生浏览应用题、过滤不必要的信息和管理单位转换,这些是将数学与语言理解混合的技能。类型5(逻辑推导)反映了在中学开发的代数思维,学生在这里将描述翻译为方程并找到未知数。最后,类型6(优化)涉及高级中学或初级高等教育水平的问题解决,关注约束推理和数学建模。此分类法不仅评估模型性能,还评估学生在各个阶段面临的认知挑战,使其对在学习环境中评估模型教育可靠性很有效。

表I:六种数学应用题类型和目标推理能力汇总。

### III-C 数据集构建

与其他方法不同...

相似文章

大规模推理模型(尚)不是多语言潜在推理器

arXiv cs.CL

本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。

TabularMath:用大语言模型理解表格上的数学推理

arXiv cs.CL

TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。

MathNet:一个面向数学推理与检索的全球多模态基准

Hugging Face Daily Papers

# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。