olympiad-level

#olympiad-level

ComBench：一个用于奥林匹克级组合数学严谨证明推理与构造实现的基准

arXiv cs.AI ↗ · 2026-06-10 缓存

ComBench 是一个奥林匹克级组合数学基准测试，包含100道题目，旨在评估大语言模型的严谨证明推理与构造实现能力。结果表明，像GPT-5.5这样的前沿模型仅达到65.4%的总体平均分，并且这两种能力是截然不同的。

0 人收藏 0 人点赞