ai-assessment

#ai-assessment

为何我们不再评估SWE-bench Verified

OpenAI Blog ↗ · 2026-02-23 缓存

OpenAI宣布将不再报告SWE-bench Verified分数，理由是两个关键问题：59.4%的失败问题存在有缺陷的测试用例，这些用例拒绝了正确的解决方案；此外，前沿模型在训练过程中已经见过基准测试问题，使得改进更多地反映了训练数据的暴露而非真实能力提升。

0 人收藏 0 人点赞

#ai-assessment

OpenAI Blog ↗ · 2025-09-25 缓存

OpenAI 推出 GDPval，这是一个新的评估框架，用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务，代表了从学术基准向更现实的职业评估的进步。

0 人收藏 0 人点赞