Cloudflare 刚刚发布了他们针对自有50多个仓库运行 Anthropic 的 Mythos Preview 后所发现的结果，值得一读

Reddit r/artificial 2026/05/18 19:20 模型

security vulnerability-detection ai-safety red-teaming anthropic cloudflare autonomous

摘要

Cloudflare 分享了他们使用 Anthropic 的 Mythos Preview 模型的经验，该模型自主发现了主要操作系统和网络浏览器中的高严重性漏洞。该模型在串联利用原语时展现出高级推理能力，但安全护栏不一致，凸显了在公开发布前需要加强防护措施。

如果你错过了上个月的 Project Glasswing 公告：Anthropic 构建了一个专注于安全的模型，该模型自主发现了所有主要操作系统和网络浏览器中的数千个高严重性漏洞，然后认为公开发布过于危险。相反，他们将访问权限给了大约40个组织，用于防御目的。Cloudflare 刚刚发布了他们对该体验的坦诚分析。真正令人印象深刻的是：该模型可以获取多个利用原语，并推理如何将它们串联成一个可用的验证程序。其推理过程看起来像是资深研究者的工作，而不是自动化扫描器。但问题在于：其内置的安全护栏并不一致。同一个任务以不同方式呈现可能产生截然不同的结果。Cloudflare 的观点是，这种不一致性正是任何未来公开发布都需要在其上加强防护措施的原因。他们还承认，同样的能力帮助他们找到了自己代码中的错误，但如果落入坏人之手，将加速对互联网上每个应用程序的攻击。如果你一直关注 Glasswing 的故事，这值得一读。

查看原文

Cloudflare 刚刚发布了他们针对自有50多个仓库运行 Anthropic 的 Mythos Preview 后所发现的结果，值得一读

相似文章

Anthropic的Claude Mythos Preview模型与50家合作伙伴发现超过10,000个关键软件缺陷

Project Glasswing: Mythos 的启示

Cloudflare警告：在AI巨头G20简报之前，Mythos AI能构建真实网络攻击

Mythos 发现 curl 漏洞

Anthropic 的 Mythos 刚刚帮助发现了一个可能突破苹果安全防护的 macOS 漏洞

提交意见反馈