MathNet：一个面向数学推理与检索的全球多模态基准

Hugging Face Daily Papers 2026/04/20 00:00 论文

摘要

# 论文页面 - MathNet：一个面向数学推理与检索的全球多模态基准来源：[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集，旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。

数学问题解决对大型语言模型和多模态模型而言仍是一项极具挑战性的推理能力测试，但现有基准在规模、语言覆盖范围和任务多样性方面存在不足。我们提出了 MathNet，一个高质量、大规模、多模态且多语言的奥赛级数学问题数据集，同时提供了一个基准测试，用于评估生成式模型的数学推理能力以及基于嵌入的系统的数学检索能力。MathNet 横跨 47 个国家、17 种语言和二十年的竞赛历程，收录了 30,676 道专家撰写的跨领域题目及解答。除核心数据集外，我们还构建了一个检索基准，包含由人工专家精心筛选的数学等价且结构相似的问题对。 MathNet 支持三项任务：(i) 问题求解（Problem Solving）、(ii) 数学感知检索（Math-Aware Retrieval）、(iii) 检索增强的问题求解（Retrieval-Augmented Problem Solving）。实验结果显示，即便是最先进的推理模型（Gemini-3.1-Pro 达到 78.4%，GPT-5 达到 69.3%）也面临挑战，而嵌入模型难以检索到等价问题。我们进一步表明，检索增强生成（RAG）的性能对检索质量高度敏感；例如，DeepSeek-V3.2-Speciale 取得了最高 12% 的提升，并在该基准上获得了最高分。MathNet 提供了最大规模的高质量奥赛数据集，以及首个用于评估数学问题检索的基准测试，我们在 https://mathnet.mit.edu 公开发布了数据集与基准测试。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - MathNet：面向数学推理与检索的全球多模态基准测试

来源：https://huggingface.co/papers/2604.18584

摘要

MathNet 是一个大规模、多语言、多模态的奥林匹克级别数学问题数据集，旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。

数学问题解决对大型语言模型和多模态模型而言，仍然是一项极具挑战性的推理能力测试，但现有的基准测试在规模、语言覆盖范围和任务多样性方面均存在局限。我们推出了 MathNet，一个高质量、大规模、多模态、多语言的数据集（https://huggingface.co/papers?q=multilingual%20dataset），包含奥林匹克级别的数学问题（https://huggingface.co/papers?q=Olympiad-level%20math%20problems），并附带一个用于评估生成式模型（https://huggingface.co/papers?q=generative%20models）中的数学推理（https://huggingface.co/papers?q=mathematical%20reasoning）以及基于嵌入的系统（https://huggingface.co/papers?q=embedding-based%20systems）中的数学检索（https://huggingface.co/papers?q=mathematical%20retrieval）的基准测试。MathNet 横跨 47 个国家、17 种语言以及二十年的竞赛历史，包含 30,676 道由专家编写的、跨越多个领域的带解答问题。除了核心数据集之外，我们还构建了一个检索基准测试，由人工专家策划的数学等价且结构相似的问题对组成。MathNet 支持三项任务：(i) 问题解决、(ii) 数学感知检索，以及 (iii) 检索增强型问题解决。实验结果表明，即使是最先进的推理模型（Gemini-3.1-Pro 达到 78.4%，GPT-5 达到 69.3%）也面临挑战，而嵌入模型难以检索等价问题。我们进一步发现，检索增强生成（https://huggingface.co/papers?q=retrieval-augmented%20generation）的性能对检索质量高度敏感；例如，DeepSeek-V3.2-Speciale 实现了高达 12% 的提升，并在该基准测试上取得了最高分。MathNet 提供了最大规模的高质量奥林匹克数据集，以及首个用于评估数学问题检索的基准测试，我们在 https://mathnet.mit.edu 公开发布了该数据集和基准测试。

查看 arXiv 页面 (https://arxiv.org/abs/2604.18584)查看 PDF (https://arxiv.org/pdf/2604.18584)项目页面 (https://mathnet.mit.edu/)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.18584)

在你的 agent 中获取这篇论文：

hf papers read 2604\.18584

还没有最新版 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用这篇论文的模型 0

暂无模型引用这篇论文

在模型的 README.md 中引用 arxiv.org/abs/2604.18584 以从此页面建立链接。

引用这篇论文的数据集 1

ShadenA/MathNet 更新于 5 分钟前 • 11 (https://huggingface.co/datasets/ShadenA/MathNet)

引用这篇论文的 Spaces 0

暂无 Space 引用这篇论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.18584 以从此页面建立链接。

包含这篇论文的合集 0

暂无合集包含这篇论文

将这篇论文添加到合集 (https://huggingface.co/new-collection)以从此页面建立链接。

MathNet：一个面向数学推理与检索的全球多模态基准

论文页面 - MathNet：面向数学推理与检索的全球多模态基准测试

摘要

引用这篇论文的模型 0

引用这篇论文的数据集 1

ShadenA/MathNet 更新于 5 分钟前 • 11 (https://huggingface.co/datasets/ShadenA/MathNet)

引用这篇论文的 Spaces 0

包含这篇论文的合集 0

相似文章

MIT 与 IMO 发布 MathNet：全球最大国际数学奥林匹克题库与解答数据集，规模达以往 5 倍，覆盖 40 余国、40 年历程

麻省理工学院科学家构建了全球最大规模的奥数级数学问题集，并向所有人开放

低资源语言数学教育中的大语言模型：僧伽罗语和泰米尔语研究

TabularMath：用大语言模型理解表格上的数学推理

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

提交意见反馈