merge-quality

标签

Cards List
#merge-quality

@dabit3: FrontierCode 是第一个评估衡量真实软件工程中最重要指标的评测:你是否真的会…

X AI KOLs Following · 昨天 缓存

FrontierCode 是一个新的编程评估基准,用于衡量代码的可合并性,声称比 SWE-Bench Pro 减少 81% 的误分类错误。任务由 Celery、uppy 和 Mattermost 等开源项目的维护者精心设计。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈