我测试了AI代理修复真实安全漏洞。以下是我的发现。
摘要
独立研究对AI代理修复来自Python项目的20个真实漏洞进行了基准测试;最佳解决率为50%,昂贵模型不值得,以及危险的误报——代理生成了令人信服但不完整的修复。
最近关于AI和安全的话题很多。作为一名研究人员,我亲自独立测试了代理是否真的能修复真实的安全漏洞。所以我构建了一个基准测试。来自真实世界项目的20个真实漏洞(Pillow、GitPython、yt-dlp、urllib3等;主要针对Python,抱歉🙏),5个模型(或者我的预算能负担得起的,再次抱歉🙏),每个代理在受限的工具集下沙盒化运行,并根据隐藏测试打分。有三点突出:* **修复安全漏洞仍然很难。** 最佳解决率为50%。这些是前沿模型,拥有对代码库的完全访问权和明确的任务。说实话,我没预料到这么低。* **昂贵模型不值得。** gpt-5.5每次运行的成本是gpt-5.4-mini的12倍,但结果在统计上相同。深思并未转化为更好的修复。* **危险的失败是令人信服的错误答案。** 代理会编辑正确的文件,运行自己的测试,看到测试通过,然后停止。修复看起来合理。但是,针对隐藏评分脚本的测试表明漏洞仍然存在。最后这一点让我在考虑将代理部署到任何安全关键任务时彻夜难眠。完整报告和轨迹在评论中。代码和结果轨迹已开源。
相似文章
我分析了 50 多个 AI 团队如何调试生产环境中的智能体故障,结果令人意外
基于对 50 多个 AI 团队的访谈,作者指出生产环境中的智能体故障往往源于细微的提示词或配置问题,而非深层模型缺陷。文章主张采用版本控制、A/B 测试和实验跟踪等软件工程实践以提高可靠性。
免费AI代理安全评估
Antitech 为AI代理提供免费的早期安全评估服务,针对提示注入、工具滥用、数据泄露等攻击向量进行测试,并提供漏洞报告和参与折扣。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。
我信任评分了171个开源AI智能体——大多数无法证明其供应链
一位开发者创建了171个开源AI智能体的独立信任注册表,根据可验证的信任信号(如供应链安全和维护)进行评分,发现只有三个智能体获得A级评级,而许多流行智能体缺乏基本验证。
Anthropic 新模型一个月内发现超一万个安全漏洞
Anthropic 的新 AI 模型 Claude Mythos 在一个月内识别出全球系统软件中超过一万个高危和严重安全漏洞,其误报率优于人类测试人员,显著推动了 AI 驱动的网络安全。