我测试了AI代理修复真实安全漏洞。以下是我的发现。

Reddit r/AI_Agents 2026/06/01 15:01 论文

ai-agents security bug-fixing benchmark open-source vulnerability python

摘要

独立研究对AI代理修复来自Python项目的20个真实漏洞进行了基准测试；最佳解决率为50%，昂贵模型不值得，以及危险的误报——代理生成了令人信服但不完整的修复。

最近关于AI和安全的话题很多。作为一名研究人员，我亲自独立测试了代理是否真的能修复真实的安全漏洞。所以我构建了一个基准测试。来自真实世界项目的20个真实漏洞（Pillow、GitPython、yt-dlp、urllib3等；主要针对Python，抱歉🙏），5个模型（或者我的预算能负担得起的，再次抱歉🙏），每个代理在受限的工具集下沙盒化运行，并根据隐藏测试打分。有三点突出：* **修复安全漏洞仍然很难。** 最佳解决率为50%。这些是前沿模型，拥有对代码库的完全访问权和明确的任务。说实话，我没预料到这么低。* **昂贵模型不值得。** gpt-5.5每次运行的成本是gpt-5.4-mini的12倍，但结果在统计上相同。深思并未转化为更好的修复。* **危险的失败是令人信服的错误答案。** 代理会编辑正确的文件，运行自己的测试，看到测试通过，然后停止。修复看起来合理。但是，针对隐藏评分脚本的测试表明漏洞仍然存在。最后这一点让我在考虑将代理部署到任何安全关键任务时彻夜难眠。完整报告和轨迹在评论中。代码和结果轨迹已开源。

查看原文

我测试了AI代理修复真实安全漏洞。以下是我的发现。

相似文章

我分析了 50 多个 AI 团队如何调试生产环境中的智能体故障，结果令人意外

免费AI代理安全评估

AI代理的失败方式鲜有人论及。以下是我亲眼所见。

我信任评分了171个开源AI智能体——大多数无法证明其供应链

Anthropic 新模型一个月内发现超一万个安全漏洞

提交意见反馈