MathNet:一个面向数学推理与检索的全球多模态基准

Hugging Face Daily Papers 论文

摘要

# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。

数学问题解决对大型语言模型和多模态模型而言仍是一项极具挑战性的推理能力测试,但现有基准在规模、语言覆盖范围和任务多样性方面存在不足。我们提出了 MathNet,一个高质量、大规模、多模态且多语言的奥赛级数学问题数据集,同时提供了一个基准测试,用于评估生成式模型的数学推理能力以及基于嵌入的系统的数学检索能力。MathNet 横跨 47 个国家、17 种语言和二十年的竞赛历程,收录了 30,676 道专家撰写的跨领域题目及解答。除核心数据集外,我们还构建了一个检索基准,包含由人工专家精心筛选的数学等价且结构相似的问题对。 MathNet 支持三项任务:(i) 问题求解(Problem Solving)、(ii) 数学感知检索(Math-Aware Retrieval)、(iii) 检索增强的问题求解(Retrieval-Augmented Problem Solving)。实验结果显示,即便是最先进的推理模型(Gemini-3.1-Pro 达到 78.4%,GPT-5 达到 69.3%)也面临挑战,而嵌入模型难以检索到等价问题。我们进一步表明,检索增强生成(RAG)的性能对检索质量高度敏感;例如,DeepSeek-V3.2-Speciale 取得了最高 12% 的提升,并在该基准上获得了最高分。MathNet 提供了最大规模的高质量奥赛数据集,以及首个用于评估数学问题检索的基准测试,我们在 https://mathnet.mit.edu 公开发布了数据集与基准测试。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - MathNet:面向数学推理与检索的全球多模态基准测试

来源:https://huggingface.co/papers/2604.18584

摘要

MathNet 是一个大规模、多语言、多模态的奥林匹克级别数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。

数学问题解决对大型语言模型和多模态模型而言,仍然是一项极具挑战性的推理能力测试,但现有的基准测试在规模、语言覆盖范围和任务多样性方面均存在局限。我们推出了 MathNet,一个高质量、大规模、多模态、多语言的数据集(https://huggingface.co/papers?q=multilingual%20dataset),包含奥林匹克级别的数学问题(https://huggingface.co/papers?q=Olympiad-level%20math%20problems),并附带一个用于评估生成式模型(https://huggingface.co/papers?q=generative%20models)中的数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)以及基于嵌入的系统(https://huggingface.co/papers?q=embedding-based%20systems)中的数学检索(https://huggingface.co/papers?q=mathematical%20retrieval)的基准测试。MathNet 横跨 47 个国家、17 种语言以及二十年的竞赛历史,包含 30,676 道由专家编写的、跨越多个领域的带解答问题。除了核心数据集之外,我们还构建了一个检索基准测试,由人工专家策划的数学等价且结构相似的问题对组成。MathNet 支持三项任务:(i) 问题解决、(ii) 数学感知检索,以及 (iii) 检索增强型问题解决。实验结果表明,即使是最先进的推理模型(Gemini-3.1-Pro 达到 78.4%,GPT-5 达到 69.3%)也面临挑战,而嵌入模型难以检索等价问题。我们进一步发现,检索增强生成(https://huggingface.co/papers?q=retrieval-augmented%20generation)的性能对检索质量高度敏感;例如,DeepSeek-V3.2-Speciale 实现了高达 12% 的提升,并在该基准测试上取得了最高分。MathNet 提供了最大规模的高质量奥林匹克数据集,以及首个用于评估数学问题检索的基准测试,我们在 https://mathnet.mit.edu 公开发布了该数据集和基准测试。

查看 arXiv 页面 (https://arxiv.org/abs/2604.18584)查看 PDF (https://arxiv.org/pdf/2604.18584)项目页面 (https://mathnet.mit.edu/)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.18584)

在你的 agent 中获取这篇论文:

hf papers read 2604\.18584

还没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用这篇论文的模型 0

暂无模型引用这篇论文

在模型的 README.md 中引用 arxiv.org/abs/2604.18584 以从此页面建立链接。

引用这篇论文的数据集 1

ShadenA/MathNet 更新于 5 分钟前 • 11 (https://huggingface.co/datasets/ShadenA/MathNet)

引用这篇论文的 Spaces 0

暂无 Space 引用这篇论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.18584 以从此页面建立链接。

包含这篇论文的合集 0

暂无合集包含这篇论文

将这篇论文添加到合集 (https://huggingface.co/new-collection)以从此页面建立链接。

相似文章

低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究

arXiv cs.CL

本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。

TabularMath:用大语言模型理解表格上的数学推理

arXiv cs.CL

TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。