META超级智能实验室发布:ProgramBench:最先进的AI能否在没有互联网的情况下从零复现真实可执行程序(ffmpeg、SQLite、ripgrep)?

Reddit r/MachineLearning 论文

摘要

Meta的超级智能实验室推出ProgramBench,这是一个评估最先进AI模型能否在没有互联网接入的情况下从零复现诸如ffmpeg和SQLite等真实可执行程序的基准测试。

暂无内容
查看原文

相似文章

ProgramBench(5分钟阅读)

TLDR AI

ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。

PaperBench:评估AI复现AI研究的能力

OpenAI Blog

OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。

EVMbench 介绍

OpenAI Blog

OpenAI 和 Paradigm 推出了 EVMbench,这是一个用于评估 AI 代理在检测、修复和利用智能合约漏洞方面能力的基准测试,涵盖来自 40 次审计的 117 个精选漏洞。该基准测试显示 GPT-5.3-Codex 在利用任务上达到了 71% 的成功率,显著优于 GPT-5 的 33.3%,而检测和修复任务仍然更具挑战性。