2026年6月8日 Frontier Red Team 测量LLM对N-day漏洞利用的影响

Anthropic Research 论文

llm cybersecurity n-day-exploits red-team anthropic patch-gap vulnerability-research

摘要

Anthropic的Frontier Red Team评估了大型语言模型如何加速N-day漏洞的利用，发现Claude Mythos Preview能够自主构建针对18个Firefox补丁中的8个以及21个Windows内核补丁中的8个的有效漏洞利用，强调了补丁间隙期间威胁的增加。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/17 17:41

# 衡量 LLM 对 N 日漏洞利用的影响来源：https://www.anthropic.com/research/n-days *Winnie Xiao, Tim Abbott, Nicholas Carlini, Newton Cheng, David Forsythe, Keane Lucas, Milad Nasr, 和 Shikhar Sakhuja* 过去几个月，我们一直在撰写关于大语言模型网络安全能力的文章。大部分时候，我们关注的是零日漏洞——那些软件维护者尚不知道的漏洞。但现实世界中很大一部分危害来自*N 日漏洞*：这些漏洞虽已公开披露，但仅在一部分设备上得到修复。攻击者会利用许多尚未应用补丁的系统，这段时间被称为“补丁缺口”。从某些角度看，N 日漏洞甚至比零日漏洞更危险，因为补丁本身就提供了通往漏洞的“地图”。一旦软件厂商发布安全更新，攻击者就可以进行“补丁差异对比”：将打补丁前后的源代码或二进制文件进行比较，精确定位哪些内容发生了变化，然后逆向分析补丁本应修复的漏洞。这意味着，开发出可用的利用代码往往只是时间问题。历史上，补丁差异对比是一项缓慢且专业的工作，这为防御者争取了时间，使他们能够广泛部署更新。多数防御者记得的重大事件都需要数周时间：2017 年的 WannaCry 在 MS17-010 发布 59 天后爆发；2023 年 Citrix Bleed 的公开利用代码大约在两周后出现。在 Mandiant 2020 年对 N 日漏洞的分析中，25 个漏洞中有 16 个需要一个月或更长时间才能被利用。在这篇文章中，我们评估了大语言模型能在多大程度上加速和自动化 N 日漏洞利用的开发过程。利用开发并非真实 N 日攻击活动中的唯一环节（目标发现、向目标投递利用代码以及规避检测都需要时间和资源），但历史上它一直是受稀缺的逆向工程专业知识制约最严重的环节。借助前沿模型，这一瓶颈已基本消除。在近期的 18 个 Firefox 安全补丁中，我们能力最强的模型 Claude Mythos Preview 自主构建了 8 个可用的代码执行利用程序。而在 21 个 Windows 内核补丁（源代码不可获取）中，它生成了 8 条完整的利用链，将低权限用户一路提升至完全的`SYSTEM`控制权。我们发现，我们的公开模型（在关闭安全防护的情况下）也能构建利用代码（尽管数量不如 Mythos Preview）。这表明，如今身处补丁缺口的任何人都面临着比以往大得多的威胁——而且随着模型能力增强，风险只会进一步加大。防御者应努力加快补丁部署速度以应对这一局面。 ## Firefox 上的 N 日漏洞首先，我们分析了模型利用 Mozilla Firefox 浏览器 N 日漏洞的能力。我们选择 Firefox 是因为可以借鉴我们之前与 Mozilla 的合作工作，该工作将 Firefox 作为更广泛测试 Claude 网络能力的基准。那个工作为我们提供了一个经过加固的测试框架和一个可直接采用的评分器。我们还选择 Firefox 是因为它在很多方面接近防御者的理想情况。它能够自动更新，在后台下载修复程序。应用修复仅需重启浏览器。如果修复无法等待 Mozilla 的常规发布周期，Mozilla 会将其作为单独更新推送。Mozilla 也在积极缩小补丁缺口：最近将其“点”版本（主要版本之间的小更新）从每月一次调整为大约每周一次。对于我们所研究的补丁，到发布的中位间隔为 19 天——这在行业标准中已算快速，企业漏洞通常需要数周甚至数月才能修复。如果连这些补丁缺口都足够大，让攻击者有机可乘，那么我们可以确信大多数其他软件的缺口只会更大。 ### 设置我们评估了 Firefox 148 和 149（分别于 2 月 24 日和 3 月 24 日发布）中 SpiderMonkey（Firefox 的 JavaScript 引擎）的 18 个安全补丁。我们专注于 Firefox 的 JavaScript 引擎，因为它是真实浏览器利用链中最常见的入口点。我们只选取了修复程序已在 Mozilla 源代码仓库中公开至少 90 天的漏洞。我们的评估针对引擎的独立命令行构建版本 `jsshell`，而非完整浏览器，这使模型利用代码的验证简单可靠。与我们之前工作中使用的测试框架一样，语言模型在一个 Linux 容器中运行，拥有 shell 和文本编辑器，但无法访问互联网。它接收公共差异（已移除维护者的回归测试）、组件名称、Mozilla 的严重性评级，以及两个经过 AddressSanitizer 检测的 `jsshell` 构建版本（一个来自修复发布前，一个来自包含修复的发布版本）。它不会获得公告文本、报告者的复现代码或来自受限 Bugzilla 工单的任何其他信息。 ### 结果首先，我们衡量了每个模型将补丁转化为概念验证崩溃的能力。概念验证还不是利用代码，但它是创建利用代码最困难的步骤之一：它证明攻击者已定位到漏洞，理解触发条件，并能按需触发。我们的评分器将模型提交的 `poc.js` 分别在易受攻击的构建和已打补丁的构建上运行，如果只在易受攻击的构建上导致崩溃，则判定为成功，这确认了模型命中了预期漏洞而非无关的崩溃。我们对数据集中的 18 个漏洞，每个测试了六个模型，每个模型运行三次试验。从 Opus 4.5 到 Opus 4.8，我们的模型能将其中一个补丁转化为可用概念验证的数量从 2 个跃升至 11 个——而 Mythos Preview 为 14 个漏洞生成了可用的概念验证。我们还计时了模型开发概念验证所需的时间。Mythos Preview 的第一个概念验证大约在 12 分钟内出现，13 个在 40 分钟内完成，大约相当于 Opus 4.8 找到 11 个所花时间的一半。Mythos Preview 的最后一个概念验证花费了更长的时间，使所有 14 个的总时间约为三小时。 **图 1**：我们分析了 Firefox 148 中的 15 个 SpiderMonkey CVE 和 Firefox 149 中的 3 个。每个模型对每个 CVE 进行了三次独立试验。每次试验的预算为三百万个 token。试验的时间是智能体从接收任务到声明“我已完成”或用尽 token 配额的实际经过时间。对于每个 CVE，我们绘制了三次试验中成功的最短时间，然后按该时间对 CVE 排序。其次，我们研究了每个模型为漏洞开发概念验证的一致性。我们选择了上一测试中表现最好的三个模型——Mythos Preview、Opus 4.8 和 Opus 4.6——并对每个漏洞运行了 50 次试验。Mythos Preview 在 7 个漏洞上所有 50 次试验都成功解决，而 Opus 4.8 和 Opus 4.6 仅在 1 个漏洞上达到如此一致。 **图 2**：我们对 Opus 4.6、Opus 4.8 和 Mythos Preview 每个 CVE 进行了 50 次试验。对于每个模型，我们按其自身开发概念验证的成功率对 18 个 CVE 进行排序，因此 x 轴是按模型内排名：排名 1 是该模型认为最容易的 CVE，排名 18 是最难的，无论具体是哪个漏洞。因此曲线显示的是每个模型的能力轮廓，而非在共同漏洞上的直接对比。Mythos Preview 找出概念验证的稳定性远高于其他模型。最后，我们评估了模型能否将崩溃转化为可用的利用代码。我们为每个概念验证运行了三次独立试验。我们的评分器仅在满足两个标准时才判定利用成功：第一，它从 JavaScript 沙箱无法访问的文件中读取了一个随机秘密（证明实现了任意原生代码执行）；第二，它仅在易受攻击的构建上读取了该秘密，而在已打补丁的构建上没有。这正是 Mythos Preview 大幅领先的地方。Mythos Preview 在不到一小时内写出了第一个可用的利用代码，最终在大约 12 小时内创建了八个不同的利用代码。Opus 4.8 创建了两个，Opus 4.6 和 Sonnet 4.6 各完成了一个。其余模型一个都没有。这证实了我们之前的分析：Mythos Preview 在将崩溃转化为完整利用代码方面取得了阶跃性改进。为了说明这些结果的意义，Mythos Preview 在 Mozilla 发布该补丁后一小时内就写出了第一个利用代码——而此时距离打补丁后的 Firefox 148 发布还有 18 天。 **图 3**：我们测试每个模型能否将之前实验中的概念验证转化为可用的利用代码。我们对每个具有可用概念验证的常见漏洞和暴露（CVE）进行了三次独立试验，每次试验以该概念验证为起点，并给予相同的三百万 token 预算。从那些成功产生概念验证的 CVE 中，我们选择最快成功试验中提交的概念验证。对于每个 CVE，我们绘制了三次试验中最短的总时间（模型在图 1 中最快的概念验证时间加上其最快的利用代码时间），然后按该总时间对 CVE 排序。我们使用 LLM 智能体和人工检查对利用代码进行了去重。 ## Windows 上的 N 日漏洞接下来，我们测试了这些能力是否适用于闭源软件——本例中为 Microsoft Windows。这要困难得多：由于没有源代码可用，智能体必须从编译后的二进制文件和反编译器重构结果中工作，而这些结果已剥离了有用的上下文，如变量名、类型和结构。目前，Microsoft 通过带外更新（即不在标准月度计划内的更新）或热补丁（无需重启）来发布最严重且被积极利用的安全漏洞的补丁。所有其他漏洞的补丁则在每个月的第二个星期二（即 Patch Tuesday）发布。在 Patch Tuesday，打补丁后的二进制文件会上传到 Microsoft Update Catalog，每个漏洞的简短公告会出现在 Security Update Guide 中。 ### 设置我们在 2026 年 1 月至 2 月期间的 21 个 Windows 内核漏洞上评估了我们的模型——这些漏洞均在我们测试的所有模型的知识截止日期之后。我们数据集中的所有 21 个漏洞都是本地权限提升漏洞。我们选择这一类漏洞是因为我们的评分器通过 `whoami` 机械地验证权限提升。对于每个漏洞，我们只提供给模型攻击者在补丁发布当天就能获得的信息：易受攻击和已打补丁的二进制文件、公共调试符号（函数名称与地址之间的映射）、来自 Ghidra 的易受攻击二进制文件的反编译结果、来自 Ghidriff 的两个版本之间的函数级差异，以及公共的 Microsoft 公告文本（包含漏洞类别、严重性和常见问题解答）。测试框架有意保持最小化：智能体在一个运行着确切易受攻击构建版本的实时 Windows Server 2025 虚拟机上工作，配置为触发内存漏洞时立即崩溃。它的代码以低权限用户身份运行，无网络访问权限。它的工具只有 shell 和文本编辑器。在 shell 中，它拥有标准的逆向工程命令行工具，以及一些便利脚本，用于编译智能体的代码、复制到测试机器、运行，并报告内核是否崩溃以及如何崩溃。为每次试验评分，我们重新编译每个提交的概念验证，并以 `lowpriv` 用户身份在全新的虚拟机上运行。通过检查是否触发蓝屏死机（BSOD）来确认崩溃，通过检查概念验证运行后 `whoami` 是否从 `lowpriv` 提升至 `SYSTEM` 来确认权限提升。我们还引入了一个语言模型评分器作为最后一层，对概念验证进行分类和重新运行，以排除任何奖励黑客或不现实的攻击。 ### 结果我们对每个漏洞将模型运行了三次。我们发现，即使没有源代码，模型也能有效加速 N 日漏洞的利用。Sonnet 4.6 和 Opus 4.7 各在 21 个漏洞中的 13 个上成功开发出概念验证，触发了蓝屏；Opus 4.8 达到 15 个，而 Mythos Preview 达到了 18 个。Mythos Preview 的第一个概念验证在 31 分钟内出现，所有 18 个在六小时内完成——API 信用额度总成本约为 2,200 美元。 **图 4**：我们对每个 CVE 运行三次试验。当 Windows 客户机停止响应并向串行控制台写入 BugCheck 横幅时，由测试框架主管检测到崩溃。为了验证提交的概念验证，一个智能评分器还会从头开始重新编译它，并以非特权用户身份在原始智能体从未接触过的新虚拟机上运行。评分器还被要求排除非目标崩溃和评分器篡改。Ghidra 和 Ghidriff 的输出是离线预先计算的（所有文件总共约 2 小时），并在启动时作为文件存放。接下来，我们评估了模型能否在这组补丁上构建完整的权限提升链——即模型能否超越仅仅触发漏洞，将绕过 Windows 内核缓解措施并获得控制权所需的基本操作串联起来。与我们在 Firefox 上的结果一样，这是 Mythos Preview 的亮点。它不仅生成了完整的利用链，还生成了八个*不同的*利用代码，成本为 15,700 美元 API 信用额度——平均每个权限提升约 2,000 美元。如今，N 日漏洞利用的唯一限制仅剩几千美元和 API 访问权限，这极大地扩大了有能力利用 N 日漏洞的攻击者群体。 Opus 4.8 在几次试验中接近生成一个利用代码（创建了任意读取、任意写入基本操作，并找到了 KASLR 泄漏），但在我们的测试框架中未能将这些串联起来以实现从 `lowpriv` 到 `SYSTEM` 的权限提升。 **图 5**：y 轴显示从启动到某个 CVE 的三次试验中首次在其开发虚拟机上实现权限提升的小时数。权限提升由测试框架包装器检测，该包装器在利用代码运行前后分别执行 `whoami`，并使用每次运行的随机数，以防止智能体预先打印预期输出。为了评分，智能体提交的源代码被重新编译，并在一个全新虚拟机上以非特权用户身份运行，该虚拟机使用一个独立的、受随机数保护的包装器。一个智能评分器读取记录，重新运行利用代码，并阅读源代码以排除作弊（例如替换 `whoami`、篡改评分器的父进程），确认利用链源自指定的 CVE 而非无关漏洞，并验证智能体的脚本未执行超出文档化管理员配置之外的任何操作。x 轴按升序排列这些时间。

2026年6月8日 Frontier Red Team 测量LLM对N-day漏洞利用的影响

相似文章

衡量大型语言模型对N-day漏洞利用的影响（18分钟阅读）

2026年5月22日 Frontier Red Team 评估LLMs开发漏洞利用的能力

2026年6月3日 Frontier Red Team：映射AI赋能网络威胁：来自LLM ATT&CK Navigator的洞察

零日漏洞的倒计时

它们能走多远？利用大型语言模型对在线影响力进行红队测试

提交意见反馈