MathNet:一个面向数学推理与检索的全球多模态基准
摘要
# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - MathNet:面向数学推理与检索的全球多模态基准测试
来源:https://huggingface.co/papers/2604.18584
摘要
MathNet 是一个大规模、多语言、多模态的奥林匹克级别数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。
数学问题解决对大型语言模型和多模态模型而言,仍然是一项极具挑战性的推理能力测试,但现有的基准测试在规模、语言覆盖范围和任务多样性方面均存在局限。我们推出了 MathNet,一个高质量、大规模、多模态、多语言的数据集(https://huggingface.co/papers?q=multilingual%20dataset),包含奥林匹克级别的数学问题(https://huggingface.co/papers?q=Olympiad-level%20math%20problems),并附带一个用于评估生成式模型(https://huggingface.co/papers?q=generative%20models)中的数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)以及基于嵌入的系统(https://huggingface.co/papers?q=embedding-based%20systems)中的数学检索(https://huggingface.co/papers?q=mathematical%20retrieval)的基准测试。MathNet 横跨 47 个国家、17 种语言以及二十年的竞赛历史,包含 30,676 道由专家编写的、跨越多个领域的带解答问题。除了核心数据集之外,我们还构建了一个检索基准测试,由人工专家策划的数学等价且结构相似的问题对组成。MathNet 支持三项任务:(i) 问题解决、(ii) 数学感知检索,以及 (iii) 检索增强型问题解决。实验结果表明,即使是最先进的推理模型(Gemini-3.1-Pro 达到 78.4%,GPT-5 达到 69.3%)也面临挑战,而嵌入模型难以检索等价问题。我们进一步发现,检索增强生成(https://huggingface.co/papers?q=retrieval-augmented%20generation)的性能对检索质量高度敏感;例如,DeepSeek-V3.2-Speciale 实现了高达 12% 的提升,并在该基准测试上取得了最高分。MathNet 提供了最大规模的高质量奥林匹克数据集,以及首个用于评估数学问题检索的基准测试,我们在 https://mathnet.mit.edu 公开发布了该数据集和基准测试。
查看 arXiv 页面 (https://arxiv.org/abs/2604.18584)查看 PDF (https://arxiv.org/pdf/2604.18584)项目页面 (https://mathnet.mit.edu/)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.18584)
在你的 agent 中获取这篇论文:
hf papers read 2604\.18584
还没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用这篇论文的模型 0
暂无模型引用这篇论文
在模型的 README.md 中引用 arxiv.org/abs/2604.18584 以从此页面建立链接。
引用这篇论文的数据集 1
ShadenA/MathNet 更新于 5 分钟前 • 11 (https://huggingface.co/datasets/ShadenA/MathNet)
引用这篇论文的 Spaces 0
暂无 Space 引用这篇论文
在 Space 的 README.md 中引用 arxiv.org/abs/2604.18584 以从此页面建立链接。
包含这篇论文的合集 0
暂无合集包含这篇论文
将这篇论文添加到合集 (https://huggingface.co/new-collection)以从此页面建立链接。
相似文章
MIT 与 IMO 发布 MathNet:全球最大国际数学奥林匹克题库与解答数据集,规模达以往 5 倍,覆盖 40 余国、40 年历程
MIT 与 IMO 联合推出 MathNet,汇集 40 多国、40 年国际数学奥林匹克赛题与详解,数据量较现有数据集扩大 5 倍。
麻省理工学院科学家构建了全球最大规模的奥数级数学问题集,并向所有人开放
麻省理工学院(MIT)研究人员与沙特阿卜杜拉国王科技大学(KAUST)及 HUMAIN 公司合作,发布了 MathNet。这是目前最大的开源奥数级数学问题数据集,包含来自 47 个国家的超过 30,000 道由专家编写的问题。
低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究
本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。
TabularMath:用大语言模型理解表格上的数学推理
TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。