TabularMath:用大语言模型理解表格上的数学推理

arXiv cs.CL 论文

摘要

TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。

arXiv:2505.19563v4 公告类型:替换交叉 摘要:数学推理一直是评估大语言模型的关键基准。虽然在数学应用题方面已取得实质性进展,但对真实应用中基于表格数据的推理需求却被忽视了。例如,商业智能等应用不仅需要对表格进行多步数值推理,还需要对不完整或不一致信息的鲁棒性。然而,这一领域的全面评估严重受限,主要受困于依赖手工收集的表格难以扩展,以及缺乏对真实场景中潜在陷阱的覆盖。为解决这一问题,我们提出了 AutoT2T,一个神经符号框架,能够可控地将数学应用题转化为可扩展且经过验证的表格推理任务。基于这个框架,我们开发了 TabularMath 基准,包含四个子集,涵盖基于文本和基于图像的表格,涉及表格复杂性、表格质量和表格表示三个维度。我们的研究揭示了三个关键观察:(1)表格复杂性和推理难度对推理性能有联合影响;(2)低质量表格对当前 LLM 的可靠推理构成严重风险;(3)不同的表格模态显示类似趋势,基于文本的表格通常更容易被模型推理。针对每项观察进行了深入分析,以指导未来研究。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:32

# 使用大型语言模型对表格进行数学推理 来源: https://arxiv.org/html/2505.19563

石宇田1,2∗, 周智1, 董伟2∗, 俞坤阳1,2, 杨鸣1,2, 程子健1,3, 郭兰哲1,3†, 李宇峰1,2

1南京大学软件新技术国家重点实验室
2南京大学人工智能学院
3南京大学智能科学与技术学院

\{tiansy,zhouz,guolz,liyf\}@lamda\.nju\.edu\.cn

###### 摘要

数学推理一直是评估大型语言模型(LLMs)的关键基准。虽然在数学应用题方面取得了重大进展,但现实应用中对表格数据推理的需求却被忽视。例如,商业智能应用不仅需要对表格进行多步数值推理,还需要对不完整或不一致的信息具有鲁棒性。然而,该领域的评估极为有限,受到人工收集表格难以扩展和缺乏对现实场景陷阱覆盖的限制。为了解决这一问题,我们提出了AutoT2T,一个神经符号框架,能够可控地将数学应用题转化为可扩展的、经过验证的表格推理任务,实现对准确性和鲁棒性的评估。基于这一流程,我们开发了TabularMath基准,包含三个逐步递进的子集和一个不完美子集,及其对应的图像版本。我们的研究揭示了三个关键观察:(1)表格复杂性和推理难度共同影响推理性能;(2)低质量表格对当前LLMs的可靠推理构成严重风险;(3)不同的表格模态显示相似的趋势,基于文本的表格通常更易于模型推理,即使对于多模态模型也是如此。针对每个观察进行了深入分析,为未来研究提供指导。

TabularMath:使用大型语言模型理解对表格的数学推理

石宇田1,2∗, 周智††感谢:平等贡献\.1\{\}^\{1\}\\lx@make@thanks\{平等贡献\.\}, 董伟2∗, 俞坤阳1,2, 杨鸣1,2, 程子健1,3,郭兰哲1,3†, 李宇峰††感谢:通讯作者\.1,2\{\}^\{1,2\}\\lx@make@thanks\{通讯作者\.\}

1南京大学软件新技术国家重点实验室
2南京大学人工智能学院
3南京大学智能科学与技术学院

\{tiansy,zhouz,guolz,liyf\}@lamda\.nju\.edu\.cn

## 1 引言

数学推理一直是评估大型语言模型(LLMs)能力的关键基准。该领域近年来取得了显著进展(OpenAI,2023;Guo等,2025a),许多单场景基准现已基本被攻克(Hosseini等,2014;Patel等,2021;Cobbe等,2021)。这一进展促使研究焦点转向现实应用,特别是对表格等半结构化数据的推理(Lu等,2023)。与纯文本不同,表格以高度结构化和有序的格式呈现信息,使其在商业智能(Zhang等,2024)和财务预测(Zhu等,2021)等领域不可或缺。

然而,现实世界的表格推理场景对LLMs提出了重大挑战。例如,在金融领域,随着数据量和复杂性的增加,处理大规模表格的需求不断增长,同时对可靠性和安全性的要求也更加严格(Bradley等,2024;Zavitsanos等,2024)。在季度财务报表中,模型不仅需要对收入、利润和负债等众多指标进行跨列计算,还需要验证数值一致性(例如,确保总资产等于负债和权益之和)。未能正确解释数据或检测不一致可能导致投资决策和风险评估等下游应用的严重后果(Cerchiello和Giudici,2016)。

请参考图1:平均问题与前10%复杂问题的模型性能对比。

尽管先前的研究(Zhu等,2021;Chen等,2021;Lu等,2023)涉及表格数学推理的某些方面,但这些工作在表格规模上有限,主要关注完美设计问题的准确性。具体而言,现有表格基准在很大程度上依赖于手工标注和收集,难以有效扩展数据集。因此,这些基准无法探索LLMs在更复杂表格上的推理能力极限,而模型在这些情况下表现更差(如图1所示)。其次,当前基准未能充分评估表格数学推理的鲁棒性,忽视了LLMs在面对不完整和不一致数据时产生幻觉答案的风险。因此,为了系统地评估多维度的模型能力,需要一个全面的基准。在这种背景下,迫切需要一个更完整、更系统的评估框架,以全面探索和挑战现有模型的边界。

为了解决上述限制,我们提出了自动文本到表格生成框架AutoT2T。它是一个神经符号管道,将数学应用题转化为可扩展的、经过验证的表格推理任务,无需人工标注,实现对准确性和鲁棒性的评估。为了促进标准化评估和公平比较,我们基于AutoT2T构建了一个全面的表格数学推理基准TabularMath。它包括三个逐步递进的难度子集(*简单、中等、困难*)以及一个*不完美*子集,旨在评估模型在面对不完整或不一致的表格数据时的鲁棒性,覆盖表格复杂性和鲁棒性维度。基于此,我们对18个开源和专有模型进行了系统实验和分析。结果围绕以下三个研究问题组织,并得出了几个关键观察。

1. **表格复杂性如何影响数学推理?** 表格复杂性和推理难度共同影响推理性能。几乎所有模型在从纯文本转向表格模态时都会出现显著性能下降,且随着表格复杂性增加而恶化。检索与推理之间的耦合形成核心瓶颈,纯检索远易于联合推理和检索(平均性能差距超过20%)。

2. **表格质量如何影响数学推理?** 低质量表格对当前LLMs的可靠推理构成严重风险。当表格包含缺失或矛盾信息时,大多数模型无法识别这些缺陷并产生误导性答案,某些情况下错误率超过50%。此外,当告知模型输入可能包含不完美表达时,模型在定义明确的问题上性能下降,显示出可解决性和区分能力之间的权衡。

3. **表格表示如何影响数学推理?** 不同表格模态显示相似趋势,基于文本的表格通常更易于模型推理。在各种模型和难度级别上,图像和文本基表格显示相似趋势,即使多模态模型在基于文本的表格上也能达到相当或更高的准确性。在文本格式中,JSON和序列化等键值结构化格式性能更好。

总体而言,我们从表格复杂性、表格质量和表格表示的角度对表格数学推理进行了系统的深入分析,辅以额外讨论。这项工作代表了向结构化数据多模态推理的探索性步骤,为未来研究解决这些挑战奠定了基础。

## 2 相关工作

请参考图2:AutoT2T管道概览。

**数学推理与基准评估。** 由于数学推理具有可验证性,它是评估大型语言模型(LLMs)能力的关键基准。早期进展通过GSM8K(Cobbe等,2021)、MultiArith(Koncel-Kedziorski等,2016)和SVAMP(Patel等,2021)等数据集在基础数学问题上取得,其中情境学习(Wei等,2022;Gao等,2023)、监督微调(Li等,2024b)和强化学习(Guo等,2025a)等方法展示了强大的性能。此后,研究人员质疑了当前对大型模型数学推理能力的评估准确性,探索了神经符号方法(Mirzadeh等,2024)等方法。这些神经符号方法也广泛应用于多模态基准生成(Zhou等;Shang等,2026;Yang等,2026;Ma等,2026;Huang等,2026)。数学推理鲁棒性(Zhou等,2024;Shi等,2023)是一个日益增长的研究领域,特别是模型在面对不完整或逻辑欺骗性提示时是否能避免产生幻觉(Tian等,2025b;Zhao等,2024)。这类描述性验证问题在当前LLMs研究中获得更多关注(Huang等,2024;Guo等,2025b;Yang等,2025),以确保实现鲁棒和可靠的人工智能范式(Tian等,2024,2025a;Dai等,2026)。

**表格问答。** 表格问答(Table QA)在财务报表分析(Chen等,2021)和医学诊断(Hasny等,2025)等各个领域具有重要的实际应用。该领域通过高质量数据集的开发取得了长足进展,始于Pasupat等人(Pasupat和Liang,2015)使用维基百科表格构建的WikiTableQuestions(WTQ)数据集的开创性工作。随后的研究转向需要推理能力的更复杂QA任务,例如ToTTo(Parikh等,2020)(专注于答案生成)和OTTQA(Chen等,2020)(强调跨表推理)。最近,FinQA(Chen等,2021)和AiTQA(Katsis等,2021)探索了表格中的数值推理,而TableBench(Wu等,2025)和Text2Analysis(He等,2024)引入了包含视觉元素的多模态方法。表格机器学习中也有一些工作专注于开放环境中的表格类型问题解决(Yu等,2026;Zhou等,2025a)。然而,大多数现有数据集依赖人工标注,缺乏可扩展数据处理的自动化管道,这在其他应用领域很常见(Zhou等,2025b;Yang等,2026)。

请参考图3:TabularMath中的示例性案例及对应模型响应。

## 3 自动文本到表格

AutoT2T管道通过以下三个阶段(图2)将数学应用题转化为表格问题。

### 3.1 语义解耦

首先,我们的目标是对数学应用题的文本进行语义解耦,并提取能够进行结构化表示的关键元素。我们使用形式语言建模(例如SMT-Lib(Barrett等,2010;Li等,2024a))对问题进行分解,将问题结构化为:

目标g:=求解f(v)

约束条件c:=e1(v)⋈e2(v),⋈∈{≥,≤,>,<,=,≠}

表达式e:=h∣e1⊕e2,⊕∈{+,−,×,÷}

定义域D:=ℕ∣ℕ+∣ℝ

其中v是变量,c是约束条件,e是表达式,h是常数,f是目标函数。对于问题p,我们定义建模状态为S=(V,C),其中V和C分别表示变量和约束集合。LLM通过从问题描述中提取候选组件来构建S,而形式求解器Φ(例如Z3(de Moura和Bjørner,2008)、CVC5(Barbosa等,2022))验证可满足性和一致性,为优化提供反馈并识别定义不良的表述。

### 3.2 表格转化

在获得形式建模状态后,下一步是将语义解耦的组件转化为结构化的表格表示。具体地,我们通过引入name字段作为主键,将变量V和活跃约束Ca映射到表列,从而将形式状态转化为表格。给定问题p,LLM生成模糊文本描述p^以及两行种子表tseeded

相似文章

低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究

arXiv cs.CL

本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。

MathNet:一个面向数学推理与检索的全球多模态基准

Hugging Face Daily Papers

# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。

大语言模型能否用 TLA+ 建模实际系统?

Hacker News Top

Specula 团队的研究人员创建了 SysMoBench 基准测试,用于评估大语言模型能否准确建模实际计算系统的 TLA+ 规范,还是仅仅照本宣科地背诵教材内容。该基准测试涵盖四个阶段共 11 个系统,揭示了当前大语言模型在准确建模系统实现与参考论文方面的系统性差距。