META超级智能实验室发布：ProgramBench：最先进的AI能否在没有互联网的情况下从零复现真实可执行程序（ffmpeg、SQLite、ripgrep）？

Reddit r/MachineLearning 2026/05/07 03:51 论文

benchmark code-generation meta ai-capabilities software-engineering

摘要

Meta的超级智能实验室推出ProgramBench，这是一个评估最先进AI模型能否在没有互联网接入的情况下从零复现诸如ffmpeg和SQLite等真实可执行程序的基准测试。

暂无内容

查看原文

相似文章

TLDR AI

ProgramBench 是一项全新的基准测试，用于评估 AI 智能体在无法获取源代码或反编译工具的情况下，仅凭编译后的二进制文件和文档重建完整软件项目的能力。

X AI KOLs Following

ProgramBench 是一个新的基准测试，用于测试 AI 智能体从编译后的二进制文件及其文档中重建完整代码库的能力。排行榜即将开放提交。

OpenAI Blog

OpenAI推出PaperBench，一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文，包含8,316个可评分任务。表现最好的模型（Claude 3.5 Sonnet）仅达到21%的复现分数，低于人类博士级别的表现，凸显了当前自主研究能力的局限性。

X AI KOLs Timeline

介绍了NatureBench，这是一个跨学科基准测试，包含来自Nature论文的90个任务，用于测试AI编码代理。研究发现，最好的代理（Claude Opus 4.7）仅在17.8%的任务上超越了现有最佳水平，而且其成功往往是通过将科学简化为监督式机器学习，而非真正的发现来实现的。

TLDR AI

介绍 BenchBench，这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者，而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。