MIT 与 IMO 发布 MathNet:全球最大国际数学奥林匹克题库与解答数据集,规模达以往 5 倍,覆盖 40 余国、40 年历程

Reddit r/LocalLLaMA 论文

摘要

MIT 与 IMO 联合推出 MathNet,汇集 40 多国、40 年国际数学奥林匹克赛题与详解,数据量较现有数据集扩大 5 倍。

Hugging Face: [https://huggingface.co/datasets/ShadenA/MathNet](https://huggingface.co/datasets/ShadenA/MathNet) 论文: [https://mathnet.csail.mit.edu/paper.pdf](https://mathnet.csail.mit.edu/paper.pdf) 项目主页: [https://mathnet.csail.mit.edu/](https://mathnet.csail.mit.edu/) MIT CSAIL 的 𝕏 动态: [https://x.com/MIT_CSAIL/status/2046620592980262964](https://x.com/MIT_CSAIL/status/2046620592980262964)
查看原文

相似文章

MathNet:一个面向数学推理与检索的全球多模态基准

Hugging Face Daily Papers

# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。

CrowdMath: 一个众包数学研究讨论数据集

arXiv cs.AI

介绍了CrowdMath,一个包含164条专家标注的进展链条的数据集,来自MIT PRIMES–AoPS CrowdMath项目,捕捉了协作数学问题解决过程。对六个前沿模型进行基准测试,发现它们在下一帖子预测上达到83-88%的准确率,但在帖子角色分类上仅有0.42的macro-F1,突显了在理解协作进展方面的差距。

MathAtlas:野外自动形式化基准测试

arXiv cs.AI

MathAtlas 是一个针对研究生级别数学的自动形式化的大规模基准测试,包含从103本教科书中提取的约5.2万个定理和定义,并附带一个包含约17.8万条关系的数学依赖图。实验表明,最先进的模型正确率最高仅为9.8%,凸显了其难度。

VAMPS:视觉辅助数学问题求解基准

arXiv cs.AI

VAMPS 是一个包含 1,168 道多模态双语数学题的新基准,旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现:即便在绘图本是自然解题策略的问题上,直接分析求解的表现也出人意料地优于借助工具进行可视化求解。