Soohak:由数学家精心策划的基准测试,用于评估大语言模型的研究级数学能力
摘要
Soohak 是一个包含 439 道由数学家精心策划的研究级数学问题的新基准测试,旨在评估前沿大语言模型的推理能力,突显其在解决高难度问题以及识别病态问题方面的显著差距。
查看缓存全文
缓存时间: 2026/05/12 02:49
论文页面 - Soohak:由数学家策划的评估 LLM 研究级数学能力的基准测试
来源:https://huggingface.co/papers/2605.09063 发布于 5 月 9 日
当日 #1 论文 (https://huggingface.co/papers/date/2026-05-12) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一项由数学家创建的包含 439 道题目的数学基准测试表明,主流语言模型在高级推理能力方面存在显著差距,特别是在识别病态问题(ill-posed problems)方面。
在前沿 LLM 最近在国际数学奥林匹克(IMO)中取得金牌级表现后,社区正在寻找下一个有意义且具有挑战性的目标,以衡量 LLM 的推理能力 (https://huggingface.co/papers?q=LLM%20reasoning)。虽然奥林匹克风格的问题 (https://huggingface.co/papers?q=olympiad-style%20problems) 仅衡量逐步推理能力,但研究级问题 (https://huggingface.co/papers?q=research-level%20problems) 则利用此类推理来推动数学知识 (https://huggingface.co/papers?q=mathematical%20knowledge) 前沿的发展,因而成为一种极具吸引力的替代方案。然而,研究级数学基准测试仍然稀缺,因为此类问题难以获取(例如,Riemann Bench 和 FrontierMath-Tier 4 分别仅包含 25 和 50 道题目)。为了支持对下一代前沿模型 (https://huggingface.co/papers?q=frontier%20models) 的可靠评估,我们推出了 Soohak,这是一个由 64 位数学家从头全新编写的 439 题基准测试。Soohak 包含两个子集。在挑战子集(Challenge subset)中,包括 Gemini-3-Pro、GPT-5 和 Claude-Opus-4.5 在内的前沿模型 (https://huggingface.co/papers?q=frontier%20models) 得分分别为 30.4%、26.4% 和 10.4%,仍有巨大的提升空间;而 Qwen3-235B、GPT-OSS-120B 和 Kimi-2.5 等领先开源权重模型的得分仍低于 15%。值得注意的是,除了标准的问题求解外,Soohak 还引入了一个拒绝子集(refusal subset)(https://huggingface.co/papers?q=refusal%20subset),用于测试研究数学中固有的能力:即识别病态问题 (https://huggingface.co/papers?q=ill-posed%20problems) 并暂停作答,而不是给出自信但缺乏依据的答案。在该子集中,没有模型的得分超过 50%,这表明“拒绝回答”是一个当前模型尚未直接解决的新优化目标。为防止数据污染,该数据集将于 2026 年底公开,在此之前可根据要求提供模型评估结果。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09063)查看 PDF (https://arxiv.org/pdf/2605.09063)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09063)
在您的 agent 中获取此论文:
hf papers read 2605\.09063
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.09063 即可从此页面建立链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.09063 即可从此页面建立链接。
引用此论文的 Space0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.09063 即可从此页面建立链接。
包含此论文的合集0
无合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。
关于LLM“数学证明”声明的问题(15分钟阅读)
本文批判了媒体对LLM局限性数学证明的夸大报道,特别指出关于自我提升的条件性结论如何经常被曲解为普遍不可能性。
SAHM:首个阿拉伯语金融与符合伊斯兰教法推理基准
研究人员发布 SAHM,首个包含 14,380 条专家验证样本的阿拉伯语金融基准,涵盖符合伊斯兰教法的推理,20 个受评 LLM 表现差距显著。
MathNet:一个面向数学推理与检索的全球多模态基准
# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。
麻省理工学院科学家构建了全球最大规模的奥数级数学问题集,并向所有人开放
麻省理工学院(MIT)研究人员与沙特阿卜杜拉国王科技大学(KAUST)及 HUMAIN 公司合作,发布了 MathNet。这是目前最大的开源奥数级数学问题数据集,包含来自 47 个国家的超过 30,000 道由专家编写的问题。