GPT-5.5 被用于标记 FrontierMath 问题中的致命错误

Reddit r/singularity 新闻

摘要

Epoch 利用 GPT-5.5 识别出 FrontierMath 基准测试中约三分之一的问题存在致命错误,展示了该模型对评估标准进行合理性检查的能力。

FrontierMath 本应是对前沿模型极具挑战性的基准测试之一,而 Epoch 现在称,经 AI 辅助审查发现,其中约三分之一的第 1 至 4 级题目存在致命错误。Noam Brown 表示,最初的标记是由 GPT-5.5 完成的。虽然我们必须等待更正后的分数,但这无疑是一个颇具意义的时刻:该模型的能力已足够强大,能够对基准测试本身进行合理性检查。
查看原文

相似文章

用GPT-5.2推进科学与数学

OpenAI Blog

OpenAI发布了GPT-5.2,包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond(93.2%)和FrontierMath(40.3%)等基准测试中达到了最先进的性能,展现出更强的推理能力,旨在加速物理、化学、生物和数学等领域的科学研究。

GPT-5 与数学发现的未来

OpenAI Blog

GPT-5 帮助数学家 Ernest Ryu 解决了一个困扰优化理论40年的开放问题,涉及 Nesterov 加速梯度法的稳定性性质。这一突破展示了大型语言模型通过从数学文献中提取相关技术和思想来辅助重大数学发现的能力。

GPT-5.5 系统卡

OpenAI Blog

OpenAI 发布 GPT-5.5 系统卡,这是一款专为复杂真实世界任务设计的新模型,具备增强的工具使用能力、自我纠错能力以及稳健的安全保障措施。

GPT-5.4 Thinking 系统卡

OpenAI Blog

OpenAI发布了GPT-5.4 Thinking,这是GPT-5系列中最新推出的推理模型,具备增强的安全缓解措施,尤其值得一提的是,该模型是首个实现全面网络安全保护措施的通用模型。