Cloudflare 刚刚发布了他们针对自有50多个仓库运行 Anthropic 的 Mythos Preview 后所发现的结果,值得一读

Reddit r/artificial 模型

摘要

Cloudflare 分享了他们使用 Anthropic 的 Mythos Preview 模型的经验,该模型自主发现了主要操作系统和网络浏览器中的高严重性漏洞。该模型在串联利用原语时展现出高级推理能力,但安全护栏不一致,凸显了在公开发布前需要加强防护措施。

如果你错过了上个月的 Project Glasswing 公告:Anthropic 构建了一个专注于安全的模型,该模型自主发现了所有主要操作系统和网络浏览器中的数千个高严重性漏洞,然后认为公开发布过于危险。相反,他们将访问权限给了大约40个组织,用于防御目的。Cloudflare 刚刚发布了他们对该体验的坦诚分析。真正令人印象深刻的是:该模型可以获取多个利用原语,并推理如何将它们串联成一个可用的验证程序。其推理过程看起来像是资深研究者的工作,而不是自动化扫描器。但问题在于:其内置的安全护栏并不一致。同一个任务以不同方式呈现可能产生截然不同的结果。Cloudflare 的观点是,这种不一致性正是任何未来公开发布都需要在其上加强防护措施的原因。他们还承认,同样的能力帮助他们找到了自己代码中的错误,但如果落入坏人之手,将加速对互联网上每个应用程序的攻击。如果你一直关注 Glasswing 的故事,这值得一读。
查看原文

相似文章

Project Glasswing: Mythos 的启示

Hacker News Top

Cloudflare 测试了 Anthropic 专为安全漏洞研究设计的 Mythos Preview 大语言模型,发现它能够将多个漏洞串联成利用链并生成可行的验证代码,这代表了相较于通用前沿模型的重大进步。

Mythos 发现 curl 漏洞

Lobsters Hottest

Daniel Stenberg 报告称,Anthropic 的 Mythos AI 模型在 curl 中发现了一个漏洞,突显了高级 AI 在安全审计中日益增长的作用,同时也指出了通过 Linux 基金会获取初始访问权限的障碍。