Soohak：由数学家精心策划的基准测试，用于评估大语言模型的研究级数学能力

Hugging Face Daily Papers 2026/05/09 00:00 论文

摘要

Soohak 是一个包含 439 道由数学家精心策划的研究级数学问题的新基准测试，旨在评估前沿大语言模型的推理能力，突显其在解决高难度问题以及识别病态问题方面的显著差距。

鉴于前沿大语言模型在国际数学奥林匹克竞赛（IMO）中近期取得了金牌水平的表现，社区正在寻找下一个有意义且具有挑战性的目标来衡量大语言模型的推理能力。与仅衡量逐步推理能力的奥林匹克风格问题不同，研究级问题利用此类推理来推动数学知识本身的前沿发展，从而成为一种极具吸引力的替代方案。然而，研究级数学基准测试仍然稀缺，因为此类问题难以获取（例如，Riemann Bench 和 FrontierMath-Tier 4 分别仅包含 25 和 50 道题目）。为了支持对下一代前沿模型的可靠评估，我们推出了 Soohak，这是一个由 64 位数学家全新创作的、包含 439 道题目的基准测试。Soohak 包含两个子集。在 Challenge 子集中，包括 Gemini-3-Pro、GPT-5 和 Claude-Opus-4.5 在内的前沿模型得分分别为 30.4%、26.4% 和 10.4%，留下了巨大的提升空间，而 Qwen3-235B、GPT-OSS-120B 和 Kimi-2.5 等领先的开源权重模型得分仍低于 15%。值得注意的是，除了标准的解题能力外，Soohak 还引入了一个拒绝子集，该子集探测的是研究数学中内在的一种能力：识别病态问题并暂停作答，而不是给出自信但缺乏依据的答案。在该子集中，没有模型的得分超过 50%，这表明“拒绝作答”是一个当前模型尚未直接应对的新优化目标。为防止数据泄露污染，该数据集将于 2026 年底公开发布，在此期间，可根据请求提供模型评估结果。

查看原文

查看缓存全文

缓存时间: 2026/05/12 02:49

论文页面 - Soohak：由数学家策划的评估 LLM 研究级数学能力的基准测试

来源：https://huggingface.co/papers/2605.09063 发布于 5 月 9 日

当日 #1 论文 (https://huggingface.co/papers/date/2026-05-12) 作者：

摘要

一项由数学家创建的包含 439 道题目的数学基准测试表明，主流语言模型在高级推理能力方面存在显著差距，特别是在识别病态问题（ill-posed problems）方面。

在前沿 LLM 最近在国际数学奥林匹克（IMO）中取得金牌级表现后，社区正在寻找下一个有意义且具有挑战性的目标，以衡量 LLM 的推理能力 (https://huggingface.co/papers?q=LLM%20reasoning)。虽然奥林匹克风格的问题 (https://huggingface.co/papers?q=olympiad-style%20problems) 仅衡量逐步推理能力，但研究级问题 (https://huggingface.co/papers?q=research-level%20problems) 则利用此类推理来推动数学知识 (https://huggingface.co/papers?q=mathematical%20knowledge) 前沿的发展，因而成为一种极具吸引力的替代方案。然而，研究级数学基准测试仍然稀缺，因为此类问题难以获取（例如，Riemann Bench 和 FrontierMath-Tier 4 分别仅包含 25 和 50 道题目）。为了支持对下一代前沿模型 (https://huggingface.co/papers?q=frontier%20models) 的可靠评估，我们推出了 Soohak，这是一个由 64 位数学家从头全新编写的 439 题基准测试。Soohak 包含两个子集。在挑战子集（Challenge subset）中，包括 Gemini-3-Pro、GPT-5 和 Claude-Opus-4.5 在内的前沿模型 (https://huggingface.co/papers?q=frontier%20models) 得分分别为 30.4%、26.4% 和 10.4%，仍有巨大的提升空间；而 Qwen3-235B、GPT-OSS-120B 和 Kimi-2.5 等领先开源权重模型的得分仍低于 15%。值得注意的是，除了标准的问题求解外，Soohak 还引入了一个拒绝子集（refusal subset）(https://huggingface.co/papers?q=refusal%20subset)，用于测试研究数学中固有的能力：即识别病态问题 (https://huggingface.co/papers?q=ill-posed%20problems) 并暂停作答，而不是给出自信但缺乏依据的答案。在该子集中，没有模型的得分超过 50%，这表明“拒绝回答”是一个当前模型尚未直接解决的新优化目标。为防止数据污染，该数据集将于 2026 年底公开，在此之前可根据要求提供模型评估结果。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09063)查看 PDF (https://arxiv.org/pdf/2605.09063)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09063)

在您的 agent 中获取此论文：

hf papers read 2605\.09063

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09063 即可从此页面建立链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.09063 即可从此页面建立链接。

引用此论文的 Space0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.09063 即可从此页面建立链接。

包含此论文的合集0

无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

Soohak：由数学家精心策划的基准测试，用于评估大语言模型的研究级数学能力

论文页面 - Soohak：由数学家策划的评估 LLM 研究级数学能力的基准测试

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的合集0

相似文章

MA-ProofBench：一种用于数学分析中定理证明的LLMs两级评估

GTBench：一个基于课程体系的图论数学研究助手大语言模型评估基准

LinAlg-Bench：揭示大语言模型数学推理中结构性失败模式的诊断性基准

AdvancedMathBench: 面向高级数学证明生成与验证的基准套件

RealMath-Eval：为何最先进的评判者难以应对真实人类推理

提交意见反馈