curriculum-grounded

#curriculum-grounded

GTBench：一个基于课程体系的图论数学研究助手大语言模型评估基准

arXiv cs.AI ↗ · 2026-06-03 缓存

论文介绍了GTBench，这是一个基于课程体系的基准，用于评估大语言模型在图论中作为数学研究助手的能力，包含63个问题，分为三个难度级别。它评估了五个前沿模型，发现性能随难度增加而下降，其中GPT-5在基础问题上近乎完美，但在研究生级别的证明上仅达到82%。

0 人收藏 0 人点赞