@KLieret: 你可以自己在 ProgramBench 上进行评估:https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…

X AI KOLs Following 论文

摘要

ProgramBench 是一个新的基准测试,用于测试 AI 智能体从编译后的二进制文件及其文档中重建完整代码库的能力。排行榜即将开放提交。

你可以自己在 ProgramBench 上进行评估:https://github.com/facebookresearch/ProgramBench/… 我们将很快开放排行榜供提交。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/14 04:29

ProgramBench

语言模型能否从零重建程序?

仅凭编译后的二进制文件及其文档,AI代理必须架构并实现一个完整的代码库,以复现原始程序的行为。

相似文章

ProgramBench(5分钟阅读)

TLDR AI

ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。

PaperBench:评估AI复现AI研究的能力

OpenAI Blog

OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。

MLE-bench:评估机器学习代理在机器学习工程中的表现

OpenAI Blog

# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程