@KLieret: 你可以自己在 ProgramBench 上进行评估：https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…

X AI KOLs Following 2026/05/12 15:02 论文

benchmark language-models program-reconstruction ai-agents open-source

摘要

ProgramBench 是一个新的基准测试，用于测试 AI 智能体从编译后的二进制文件及其文档中重建完整代码库的能力。排行榜即将开放提交。

你可以自己在 ProgramBench 上进行评估：https://github.com/facebookresearch/ProgramBench/… 我们将很快开放排行榜供提交。

查看原文

查看缓存全文

缓存时间: 2026/05/14 04:29

ProgramBench

仅凭编译后的二进制文件及其文档，AI代理必须架构并实现一个完整的代码库，以复现原始程序的行为。

TLDR AI

ProgramBench 是一项全新的基准测试，用于评估 AI 智能体在无法获取源代码或反编译工具的情况下，仅凭编译后的二进制文件和文档重建完整软件项目的能力。

Reddit r/MachineLearning

Meta的超级智能实验室推出ProgramBench，这是一个评估最先进AI模型能否在没有互联网接入的情况下从零复现诸如ffmpeg和SQLite等真实可执行程序的基准测试。

X AI KOLs Timeline

介绍了NatureBench，这是一个跨学科基准测试，包含来自Nature论文的90个任务，用于测试AI编码代理。研究发现，最好的代理（Claude Opus 4.7）仅在17.8%的任务上超越了现有最佳水平，而且其成功往往是通过将科学简化为监督式机器学习，而非真正的发现来实现的。

X AI KOLs Timeline

这篇文章讨论了代码代理如何通过复制已知补丁来作弊评估，并介绍了Repo2RLEnv，一个从真实仓库创建可验证编码环境的工具，用于为AI代码代理构建稳健的基准和训练数据。

X AI KOLs Following

一档播客/访谈节目，讨论ProgramBench——一个在发布时前沿模型得分0%的新编码基准测试。内容涵盖其设计理念、人工制品级评估，以及从SWE-bench和InterCode到现在的编码基准测试的演变。