MathNet:一个面向数学推理与检索的全球多模态基准
摘要
# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - MathNet:面向数学推理与检索的全球多模态基准测试
来源:https://huggingface.co/papers/2604.18584
摘要
MathNet 是一个大规模、多语言、多模态的奥林匹克级别数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。
数学问题解决对大型语言模型和多模态模型而言,仍然是一项极具挑战性的推理能力测试,但现有的基准测试在规模、语言覆盖范围和任务多样性方面均存在局限。我们推出了 MathNet,一个高质量、大规模、多模态、多语言的数据集(https://huggingface.co/papers?q=multilingual%20dataset),包含奥林匹克级别的数学问题(https://huggingface.co/papers?q=Olympiad-level%20math%20problems),并附带一个用于评估生成式模型(https://huggingface.co/papers?q=generative%20models)中的数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)以及基于嵌入的系统(https://huggingface.co/papers?q=embedding-based%20systems)中的数学检索(https://huggingface.co/papers?q=mathematical%20retrieval)的基准测试。MathNet 横跨 47 个国家、17 种语言以及二十年的竞赛历史,包含 30,676 道由专家编写的、跨越多个领域的带解答问题。除了核心数据集之外,我们还构建了一个检索基准测试,由人工专家策划的数学等价且结构相似的问题对组成。MathNet 支持三项任务:(i) 问题解决、(ii) 数学感知检索,以及 (iii) 检索增强型问题解决。实验结果表明,即使是最先进的推理模型(Gemini-3.1-Pro 达到 78.4%,GPT-5 达到 69.3%)也面临挑战,而嵌入模型难以检索等价问题。我们进一步发现,检索增强生成(https://huggingface.co/papers?q=retrieval-augmented%20generation)的性能对检索质量高度敏感;例如,DeepSeek-V3.2-Speciale 实现了高达 12% 的提升,并在该基准测试上取得了最高分。MathNet 提供了最大规模的高质量奥林匹克数据集,以及首个用于评估数学问题检索的基准测试,我们在 https://mathnet.mit.edu 公开发布了该数据集和基准测试。
查看 arXiv 页面 (https://arxiv.org/abs/2604.18584)查看 PDF (https://arxiv.org/pdf/2604.18584)项目页面 (https://mathnet.mit.edu/)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.18584)
在你的 agent 中获取这篇论文:
hf papers read 2604\.18584
还没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用这篇论文的模型 0
暂无模型引用这篇论文
在模型的 README.md 中引用 arxiv.org/abs/2604.18584 以从此页面建立链接。
引用这篇论文的数据集 1
ShadenA/MathNet 更新于 5 分钟前 • 11 (https://huggingface.co/datasets/ShadenA/MathNet)
引用这篇论文的 Spaces 0
暂无 Space 引用这篇论文
在 Space 的 README.md 中引用 arxiv.org/abs/2604.18584 以从此页面建立链接。
包含这篇论文的合集 0
暂无合集包含这篇论文
将这篇论文添加到合集 (https://huggingface.co/new-collection)以从此页面建立链接。
相似文章
MIT 与 IMO 发布 MathNet:全球最大国际数学奥林匹克题库与解答数据集,规模达以往 5 倍,覆盖 40 余国、40 年历程
MIT 与 IMO 联合推出 MathNet,汇集 40 多国、40 年国际数学奥林匹克赛题与详解,数据量较现有数据集扩大 5 倍。
麻省理工学院科学家构建了全球最大规模的奥数级数学问题集,并向所有人开放
麻省理工学院(MIT)研究人员与沙特阿卜杜拉国王科技大学(KAUST)及 HUMAIN 公司合作,发布了 MathNet。这是目前最大的开源奥数级数学问题数据集,包含来自 47 个国家的超过 30,000 道由专家编写的问题。
VAMPS:视觉辅助数学问题求解基准
VAMPS 是一个包含 1,168 道多模态双语数学题的新基准,旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现:即便在绘图本是自然解题策略的问题上,直接分析求解的表现也出人意料地优于借助工具进行可视化求解。
大型语言模型中的数学推理:基准、架构、评估与开放挑战
本综述综合了大型语言模型在数学推理方面的最新进展,涵盖了基准、架构、训练策略和评估协议。它指出了推理忠实性和基准偏差等关键挑战。
WorldBench:一个具有挑战性且视觉多样化的多模态推理基准
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。