GPT-5.5 被用于标记 FrontierMath 问题中的致命错误

Reddit r/singularity 2026/05/12 07:34 新闻

摘要

Epoch 利用 GPT-5.5 识别出 FrontierMath 基准测试中约三分之一的问题存在致命错误，展示了该模型对评估标准进行合理性检查的能力。

FrontierMath 本应是对前沿模型极具挑战性的基准测试之一，而 Epoch 现在称，经 AI 辅助审查发现，其中约三分之一的第 1 至 4 级题目存在致命错误。Noam Brown 表示，最初的标记是由 GPT-5.5 完成的。虽然我们必须等待更正后的分数，但这无疑是一个颇具意义的时刻：该模型的能力已足够强大，能够对基准测试本身进行合理性检查。

查看原文

相似文章

用GPT-5.2推进科学与数学

OpenAI Blog

OpenAI发布了GPT-5.2，包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond（93.2%）和FrontierMath（40.3%）等基准测试中达到了最先进的性能，展现出更强的推理能力，旨在加速物理、化学、生物和数学等领域的科学研究。