test-cases

标签

Cards List
#test-cases

在 SWEBench Pro 上,GPT 5.5 的失败中有 68.5% 是由损坏或错误的测试用例引起的,占整个基准测试的 28.9%

Reddit r/ArtificialInteligence · 2026-05-26

分析显示,GPT 5.5 在 SWEBench Pro 上的失败中有 28.9% 是由于损坏或错误的测试用例所致,类似问题也影响了其他主要 AI 基准测试,引发了对当前评估方法准确性的担忧。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈