@dwizzzleMSFT: http://cybergym.io 刚刚更新了排行榜,MDASH 凭借新的多模型方法跃居第一。非常感谢 Ta…
摘要
微软的新型多模型自主安全系统(MDASH)在 CyberGym 排行榜上位列漏洞发现第一名,实现了 35 个零日发现,展示了先进的 AI 驱动的防御能力。
查看缓存全文
缓存时间: 2026/05/14 00:27
http://cybergym.io 刚刚更新了其排行榜,MDASH 现以全新的多模型方法位居榜首。衷心感谢 Taesoo Kim 和 Autonomous Code Security 团队在推动 AI 驱动的漏洞发现与防御前沿方面所做的巨大贡献。https://microsoft.com/en-us/security/blog/2026/05/12/defense-at-ai-speed-microsofts-new-multi-model-agentic-security-system-tops-leading-industry-benchmark/…
CyberGym:大规模评估AI代理真实世界网络安全能力
来源:https://www.cybergym.io/ Zhun Wang*mailto:[email protected], Tianneng Shi*mailto:[email protected], Matthew Cai, Jialin Zhang, Dawn Song
加州大学伯克利分校 *表示同等贡献
一个大规模、高质量的网络安全评估框架,旨在严格评估AI代理在真实世界漏洞分析任务上的能力。CyberGym 包含1,507个基准测试实例,涵盖来自188个大型软件项目的历史漏洞。
排行榜
排名代理模型尝试次数成功率(%)评估日期来源加载中… 排行榜根据 CyberGym Level 1 对代理性能进行排名,在该等级中,代理会收到漏洞描述和未打补丁的代码库。代理根据其通过生成可工作PoC来复现目标漏洞的能力进行评估。
• %目标漏洞复现: 代理成功复现目标漏洞并生成可工作PoC的实例百分比。 • 尝试次数: 每个实例的尝试次数。如果任何一次尝试成功,则认为该实例成功。
鉴于代理展现出有前景的能力,我们进一步评估那些能使修补后可执行文件崩溃的PoC是否也能使项目最新版本崩溃。此外,我们进行了一项实验,让代理在没有任何先验上下文的情况下分析最新代码库以发现新漏洞。值得注意的是,代理总共发现了35个零日漏洞和17个历史性不完整补丁,详情请参见本处(https://www.cybergym.io/#zero-days)。
CyberGym 概述
CyberGym 测试 AI 代理处理真实世界网络安全任务的能力。
我们通过系统收集跨188个广泛分发的大规模软件项目中已发现并修补的真实世界漏洞,构建了1,507个基准测试实例。每个实例均源自 OSS-Fuzz(谷歌持续模糊测试活动)发现的漏洞,确保来自广泛使用的代码库的真实安全挑战。
CyberGym 概述
基于漏洞复现的基准测试。 CyberGym 创建评估环境,将目标仓库置于补丁前的提交状态。代理接收漏洞描述和未打补丁的代码库,然后必须生成能够复现该漏洞的概念验证(PoC)测试,这需要推理整个代码库,通常跨越数千个文件和数百万行代码。这要求代理定位相关代码片段,并生成能够从程序入口点触发漏洞的有效PoC。代理根据执行反馈迭代优化PoC。成功与否取决于验证PoC在补丁前版本上触发,而在补丁后版本上不触发。
开放式漏洞发现。 CyberGym 还对超越静态基准测试的开放式漏洞发现场景进行综合分析。我们部署代理在没有已知漏洞先验知识的情况下分析最新代码库。代理面临的挑战是生成PoC以探测潜在漏洞,然后在启用消毒器的情况下对照最新软件版本进行验证。这种设置模拟了真实世界的漏洞发现,使得能够识别先前未知的漏洞。
CyberGym 的真实世界安全影响
除了基准测试之外,CyberGym 还展示了切实的现实世界价值:代理不仅复现了已知漏洞,而且还发现了不完整的补丁和先前未知的零日漏洞。
为 CyberGym 生成的 PoC 揭示了不完整的补丁。 在评估过程中,一些生成的概念验证(PoC)出人意料地即使在程序的补丁后版本上也导致了崩溃,这表明某些修复只是部分性的。在所有生成的PoC中,有759个在60个项目中触发了崩溃,经过人工确认,发现涉及15个项目的17例不完整补丁。虽然这些都不影响最新的软件发布,但结果表明,AI生成的PoC有助于识别现有安全补丁中可能被忽视的缺陷。
为 CyberGym 生成的 PoC 揭示了零日漏洞。 对那些补丁后崩溃的进一步验证显示,有35个PoC仍然导致其程序最新版本崩溃。经过去重和分析,这些对应于10个独特的、先前未知的零日漏洞,每个漏洞在被发现前平均持续存在969天。
大规模运行代理漏洞发现。 为了测试开放式发现,我们仅给予代理最新的代码库,在431个OSS-Fuzz项目的1,748个可执行文件上运行了配备GPT-4.1和GPT-5的OpenHands。GPT-4.1触发了16次崩溃,导致7个已确认的零日漏洞。GPT-5触发了56次崩溃,产生22个已确认的零日漏洞,其中两个模型之间有4个重叠。这些结果证实,现代LLM代理能够自主大规模发现新漏洞,并且CyberGym上的表现与真实世界的漏洞发现能力密切相关。
更多关键发现
除了排行榜中显示的得分之外,我们的综合评估还揭示了关于当前AI代理在网络安全领域能力的几个关键洞见。
成功代理轨迹示例
一个代理根据提供的描述和代码库成功复现目标漏洞的示例。代理首先使用给定的关键词浏览相关文件,利用检索到的信息构建测试用例,对测试用例进行变异,最终触发崩溃。
代理轨迹示例
引用
如果您在研究中使用此工作,请引用以下内容:
@inproceedings{wang2026cybergym, title={CyberGym: Evaluating {AI} Agents' Real-World Cybersecurity Capabilities at Scale}, author={Zhun Wang and Tianneng Shi and Jingxuan He and Matthew Cai and Jialin Zhang and Dawn Song}, booktitle={The Fourteenth International Conference on Learning Representations}, year={2026}, url={https://openreview.net/forum?id=2YvbLQEdYt} }
更多内容
请查看我们的其他工作:Frontier AI’s Impact on the Cybersecurity Landscape (https://rdi.berkeley.edu/frontier-ai-impact-on-cybersecurity/),这是一份关于前沿AI如何重塑网络安全以及我们应如何应对的全面分析。另请参阅我们的Frontier AI Cybersecurity Observatory (https://rdi.berkeley.edu/frontier-ai-impact-on-cybersecurity/benchmarks.html),这是一个实时排行榜,跟踪AI在攻击和防御任务中的网络安全能力。
相似文章
微软多智能体AI系统在网络安全基准测试中超越Anthropic的Mythos(3分钟阅读)
微软的MDASH多智能体AI系统,利用超过100个专业智能体,在CyberGym网络安全基准测试中超越了Anthropic的Mythos,能够有效发现并确认真实世界的软件漏洞。
@DailyDoseOfDS_: OpenAI 为此支付了 50 万美元!> 寻找 LLM 漏洞的 Kaggle 竞赛 DeepTeam 免费实现 20+…
DeepTeam 是一款免费的开源工具,实现了 20 多种最先进的攻击技术,可检测包括偏见和个人信息(PII)泄露在内的 50 多种 LLM 漏洞,可在本地运行且无需数据集。
微软修复了 137 个漏洞,但 Azure AI Foundry 的那个最引人注目
微软修复了 137 个漏洞,其中 Azure AI Foundry 中一个值得注意的高严重性权限提升修复突显了 AI 应用基础设施层的安全风险。
OpenAI的Daybreak瞄准网络威胁;但Google同样发现黑客也在利用AI
OpenAI推出面向企业的网络安全计划Daybreak,与此同时,Google披露了首个已知案例:黑客正利用AI开发zero-day exploits。
@logangraham: 很多人一直在关注Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天,我很兴奋……
Anthropic的Claude Mythos Preview模型已经过XBOW和英国AISI的评估,展示了前所未有的自主网络安全能力,包括解决端到端网络靶场以及发现数千个漏洞。该公告强调需要为网络安全领域快速发展的AI能力做好准备。