META超级智能实验室发布:ProgramBench:最先进的AI能否在没有互联网的情况下从零复现真实可执行程序(ffmpeg、SQLite、ripgrep)?
摘要
Meta的超级智能实验室推出ProgramBench,这是一个评估最先进AI模型能否在没有互联网接入的情况下从零复现诸如ffmpeg和SQLite等真实可执行程序的基准测试。
暂无内容
相似文章
ProgramBench(5分钟阅读)
ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。
PaperBench:评估AI复现AI研究的能力
OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。
我为编码智能体的“记忆”构建了一个基准测试,期待他人来挑战它
开发者创建了一个名为 continuity-benchmarks 的新基准测试,用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力,解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。
MLS-Bench:对 AI 系统在构建更优 AI 方面能力的全面与严格评估
本文介绍了 MLS-Bench,这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法,而非仅仅进行工程调优的基准测试。
EVMbench 介绍
OpenAI 和 Paradigm 推出了 EVMbench,这是一个用于评估 AI 代理在检测、修复和利用智能合约漏洞方面能力的基准测试,涵盖来自 40 次审计的 117 个精选漏洞。该基准测试显示 GPT-5.3-Codex 在利用任务上达到了 71% 的成功率,显著优于 GPT-5 的 33.3%,而检测和修复任务仍然更具挑战性。