ai-assessment

标签

Cards List
#ai-assessment

为何我们不再评估SWE-bench Verified

OpenAI Blog · 2026-02-23 缓存

OpenAI宣布将不再报告SWE-bench Verified分数,理由是两个关键问题:59.4%的失败问题存在有缺陷的测试用例,这些用例拒绝了正确的解决方案;此外,前沿模型在训练过程中已经见过基准测试问题,使得改进更多地反映了训练数据的暴露而非真实能力提升。

0 人收藏 0 人点赞
#ai-assessment

衡量我们的模型在实际任务中的性能

OpenAI Blog · 2025-09-25 缓存

OpenAI 推出 GDPval,这是一个新的评估框架,用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务,代表了从学术基准向更现实的职业评估的进步。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈