标签
FrontierCode 是一个新的编程评估基准,用于衡量代码的可合并性,声称比 SWE-Bench Pro 减少 81% 的误分类错误。任务由 Celery、uppy 和 Mattermost 等开源项目的维护者精心设计。