BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
test-cases
标签
Cards
List
#test-cases
在 SWEBench Pro 上,GPT 5.5 的失败中有 68.5% 是由损坏或错误的测试用例引起的,占整个基准测试的 28.9%
Reddit r/ArtificialInteligence
↗
· 2026-05-26
分析显示,GPT 5.5 在 SWEBench Pro 上的失败中有 28.9% 是由于损坏或错误的测试用例所致,类似问题也影响了其他主要 AI 基准测试,引发了对当前评估方法准确性的担忧。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交