constructive-reasoning

标签

Cards List
#constructive-reasoning

ComBench:一个用于奥林匹克级组合数学严谨证明推理与构造实现的基准

arXiv cs.AI · 6小时前 缓存

ComBench 是一个奥林匹克级组合数学基准测试,包含100道题目,旨在评估大语言模型的严谨证明推理与构造实现能力。结果表明,像GPT-5.5这样的前沿模型仅达到65.4%的总体平均分,并且这两种能力是截然不同的。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈