curriculum-grounded

标签

Cards List
#curriculum-grounded

GTBench:一个基于课程体系的图论数学研究助手大语言模型评估基准

arXiv cs.AI · 2026-06-03 缓存

论文介绍了GTBench,这是一个基于课程体系的基准,用于评估大语言模型在图论中作为数学研究助手的能力,包含63个问题,分为三个难度级别。它评估了五个前沿模型,发现性能随难度增加而下降,其中GPT-5在基础问题上近乎完美,但在研究生级别的证明上仅达到82%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈