标签
ComBench 是一个奥林匹克级组合数学基准测试,包含100道题目,旨在评估大语言模型的严谨证明推理与构造实现能力。结果表明,像GPT-5.5这样的前沿模型仅达到65.4%的总体平均分,并且这两种能力是截然不同的。
Thomas Bloom 撰写了一篇综述博文,介绍了近期关于 Erdős 单位距离猜想和实数域上和积猜想的反例,包括借助 OpenAI 辅助推翻单位距离猜想的工作,以及通过合作推翻和积猜想的工作,并概述了相关构造方法及其背后的直觉。
本文在Dyck路径的zeta映射双射上训练了一个小型单层编码器-解码器transformer,并使用机制可解释性提取了一种新的显式算法(称为脚手架映射),展示了AI辅助的数学发现方法。