@Wing_VC: 新一期:@GraySwanAI 联合创始人 @zicokolter 和 Matt Fredrikson 与 @swyx 在 @latentspacepod 上深入探讨为何……
摘要
Gray Swan AI 联合创始人 Zico Kolter 和 Matt Fredrikson 在 Latent Space 播客中讨论为何AI安全是一个独立的学科,涵盖提示注入、自动化红队测试以及AI代理带来的新兴漏洞。
查看缓存全文
缓存时间: 2026/06/22 23:42
新的一期播客:@GraySwanAI 联合创始人 @zicokolter 和 Matt Fredrikson 与 @swyx 在 @latentspacepod 上深入探讨了为什么AI安全是一门独立的学科,而不仅仅是“带AI的网络安全”。
随着像 Claude Code 和 Codex 这样的智能体成为主流,它们开启了一类全新的漏洞。Zico 和 Matt 对此进行了全面剖析:
- 提示注入
- “致命三重奏”
- 自动化红队测试
- 为什么下一场重大AI事件可能是一只灰天鹅——可能性不大,但在发生之前很久就已可见
任何构建或部署AI智能体的人都值得一听:
神话之后的红队测试——Zico Kolter 与 Matt Fredrikson,Gray Swan
来源:https://www.latent.space/p/gray-swan AI Engineer World’s Fair (http://ai.engineer/wf) 常规门票今天即将售罄\下周加入我们,赶在晚鸟涨价之前,并获取超过 $40,000 的参会赞助积分 (https://www.latent.space/p/ainews-not-much-happened-today-e7b)!
感谢美国政府针对 Mythos 和 Fable 发布了出口管制指令 (https://www.latent.space/p/ainews-fable-and-mythos-officially),越狱和(行业术语)间接提示注入 (https://www.cnet.com/tech/services-and-software/anthropic-claude-fable-mythos-us-export-controls/) 的风险突然成为热门话题,尽管我们几年来一直在关注AI安全,从 Hackaprompt (https://www.latent.space/p/learn-prompting) 到神秘的 Pliny the Elder (https://www.latent.space/p/jailbreaking-agi-pliny-the-liberator)。
Zico Kolter,OpenAI 董事会成员,安全与安保委员会 (https://openai.com/index/zico-kolter-joins-openais-board-of-directors/) 成员;Matt Fredrikson,CMU 教授兼 Gray Swan (https://www.mattfredrikson.com/) CEO。他们是关于间接提示注入 (https://arxiv.org/abs/2603.15714) 的权威论文的共同作者,而 Gray Swan (https://www.grayswan.ai/) 是 Mythos 模型卡 (https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf) 中引用的权威机构,直接调查了当前备受关注的确切能力:
我们借此机会向他们请教了AI红队测试的现状,以及 Shade (https://www.grayswan.ai/solutions/platform/shade) —— Anthropic 用于评估模型在编码环境中对抗提示注入攻击的对抗性红队工具。Shade 是他们整体工具包的一部分,覆盖了 Simon Willison 的“致命三重奏” (https://simonwillison.net/2025/Jun/16/the-lethal-trifecta/),包括 Cygnal (https://www.grayswan.ai/solutions/platform/cygnal)(一款AI护栏产品)以及全球最大的 AI 红队测试竞技场 (https://app.grayswan.ai/arena),其中包含 AIRT 名人 Wyatt Walls (https://x.com/lefthanddraft)。
然而,尽管有所有这些安全工具,我们只是在推迟不可避免的事情。
极其聪明的AI所带来的风险越来越像是灰天鹅事件:一个所有人都能看到即将发生的事件。
在本期节目中,Gray Swan 联合创始人 Zico Kolter 和 Matt Fredrikson 与 swyx 一起解释了为什么AI安全不仅仅是“带AI的网络安全”,为什么智能体会引入一类新的漏洞,以及为什么下一场重大AI事件可能是一只灰天鹅:可能性不大,但在发生之前就已清晰可见。
我们深入探讨了提示注入、自动化红队测试、模型鲁棒性、智能体身份、计算机使用智能体、企业护栏以及新兴的AI保险/合规栈。Zico 和 Matt 还解释了为什么前沿模型不会自动随着规模扩大而变得更安全,为什么专门的红队测试模型现在可以在攻破AI系统方面超越人类,以及为什么AI安全的未来可能取决于AI系统攻击、防御和解释其他AI系统。
我们讨论了:
- 为什么AI系统需要与传统软件不同的安全思维
- 提示注入如何为 Codex 和 Claude Code 等智能体创造一种新的利用类别
- Gray Swan Arena 和社区红队测试的兴起
- Shade:一种能在攻破模型方面超越人类的AI
- 为什么LLM是一种异类智能形式,其失败方式与人类不同
- 人类与浏览器智能体鲁棒性对比,以及为什么人类排名第四
- 为什么评估意识和能力激发很重要
- Cygnal:Gray Swan 用于策略执行的护栏模型
- 为什么更大的模型不会自动变得更鲁棒
- 致命三重奏:不可信数据、私有数据和数据泄露
- 为什么“只要更好地提示”不足以实现企业AI安全
- OpenClaw、计算机使用智能体以及智能体安全噩梦
- 智能体原生身份、权限和企业部署
- 为什么AI安全可能成为保险和合规的一部分
- 为什么第一次重大AI提示注入漏洞可能不可避免
Gray Swan
- **网站:**https://www.grayswan.ai/
Zico Kolter
- **X:**https://x.com/zicokolter
- **网站:**https://zicokolter.com/
- **LinkedIn:**https://www.linkedin.com/in/zico-kolter-560382a4/
Matt Fredrikson
- **网站:**https://www.mattfredrikson.com/
- **LinkedIn:**https://www.linkedin.com/in/matt-fredrikson-7596349/
00:00:00 介绍
00:02:31 为什么AI安全不同
00:06:38 测试 Claude、Codex 和提示注入
00:07:47 Gray Swan Arena 和自动化红队测试
00:11:14 比人类更擅长攻破模型的AI
00:14:00 LLM 作为异类智能
00:19:00 人类 vs AI 智能体
00:24:35 红队测试、越狱和能力激发
00:26:11 Cygnal:AI 智能体的护栏
00:34:04 致命三重奏
00:39:31 AI 能否自动化 AI 研究?
00:45:47 OpenClaw 和计算机使用安全问题
00:50:44 智能体身份、权限和企业 AI
00:54:24 AI 安全的未来
01:00:30 AI 保险与合规
01:04:32 每个人都能看到的灰天鹅事件
01:06:04 结语
Swyx [00:00:00]: 我们现在在演播室,与 Gray Swan 的 Matt 和 Zico 在一起。欢迎。
Zico [00:00:08]: 很高兴来到这里。
Matt [00:00:09]: 感谢邀请我们。
Swyx [00:00:10]: 你们是从匹兹堡来的?所有优秀计算机科学的故乡。我不知道我是否言过其实。一所非常强大的大学。
Zico [00:00:18]: CMU 自这个领域诞生以来就一直是许多AI的中心。
Swyx [00:00:22]: 尤其是很多自动驾驶和一些语言学习。恭喜你们的 A 轮融资。你们来这里是因为参加 Snowflake Summit,而 Snowflake 是你们的投资者之一。让我们在开头简洁介绍一下:Gray Swan 是什么,你们选择了什么作为创业领域?
Matt [00:00:42]: 在 Gray Swan,我们的使命是让每个人都能安全可靠地使用AI。大型语言模型是软件,如果你想要部署它们或在此基础上构建应用程序,你需要了解漏洞和可能出现的问题。这包括日常错误,比如智能体调用了错误的工具,也包括最坏的情况,即攻击者有动机让你的智能体行为不当、泄露数据或窃取凭证。Gray Swan 源于我们在卡内基梅隆大学的研究,Zico 和我花了十多年时间研究深度学习系统中的新漏洞和攻击面:如何测试它们,了解它们的严重性,以及如何使推理更加鲁棒。
Swyx [00:02:05]: 老实说,对任何学者来说,这都是一个非常富有成果的研究领域。回顾一下,这是 10 年前的事情,基本上就是我的全部经历。我从 Ian Goodfellow 那里得到了很多启发,他是我们播客的老朋友,这是最初的对抗性场景之一。
Matt [00:02:23]: 这篇论文直接受到 Ian 工作的启发。
Swyx [00:02:29]: Zico,你这边的情况呢?
Zico [00:02:31]: 和 Matt 一样,我在卡内基梅隆大学当教授也有一段时间了。从根本上说,我们相信AI的变革力量。它已经改变了软件生态系统,未来还将改变许多其他生态系统。问题在于,这些系统的行为与我们习惯的软件非常不同。我不只是说AI可以找到软件中的漏洞,尽管它确实可以。我是说AI系统本身就有固有的漏洞。它们可以被欺骗,就像人可以被欺骗一样,所以你需要一种不同的安全思维。
Zico [00:03:23]: 当存在关联故障的可能性时,这一点尤其重要。这不仅是因为有很多AI系统在运行,更是因为每个人都在使用少数几个模型。如果你在大家使用的智能体(如 Codex 和 Claude Code)中发现了漏洞,你就拥有了一类新的利用方式。实验室在这方面做了很多工作,但当一个新的平台出现时,往往也会随之出现一个独立的安全系统。这就是我们在AI领域所处的位置:需要有专门针对AI安全和安全的提供商,而且需求只会增长。
Swyx [00:04:55]: 我想在开头就强调,这不是传统意义上的网络安全剧集。很多人看到标题可能会这么想,但你们实际上是在尝试将这些模型本质上看作不可信的实体?
Zico [00:05:11]: 正是如此。这是一个常见的混淆,因为AI在网络安全问题上也很擅长,既能解决问题也能引发问题。但AI系统本身会引入新的漏洞。Gray Swan 不是关于使用AI来改善你的网络基础设施;而是关于理解和减轻你在采用和部署AI时带来的安全风险。
Matt [00:05:49]: 其中的很大一部分是人们如何使用人工智能。一旦你在模型之上构建了整个自主系统,并将其集成到你的更大平台或网络中,你就有了潜在的网络安全风险。目标是在AI与你的更广泛的网络安全目标相关时,减轻AI带来的风险。
Zico [00:06:17]: 其中一部分是红队测试。我们联系你的一个原因是你参与了 Claude Mythos 预览,你是 IPI(间接提示注入)的权威之一。当你收到一个模型时,它不一定是 Mythos,但那是目前最突出的一个:你们对它做了什么?
Matt [00:06:38]: 我们做了一系列事情。在 Mythos 案例中,Anthropic 担心的是模型对间接提示注入的鲁棒性。如果你操作一个编码智能体并使用 Mythos 作为模型,它会获取不可信的内容并读取你无法控制的文本。它在坚持原始目标而不被劫持方面会有多鲁棒?我们还帮助前沿实验室测试他们的安全措施,比如针对网络滥用的风险。广义上,我们提供对抗性安全和安全评估,以便模型构建者可以从一次迭代到下一次迭代评估进展。
Zico [00:07:37]: 他们也内部做这些工作,Anthropic 在意识形态上非常倾向于这样做。他们选择外包什么,保留什么内部做?
Matt [00:07:47]: 我认为有两件事是我们的优势。一是 Gray Swan Arena。我们运营一个红队测试社区。我们提供奖金挑战。很多挑战来自实验室赞助商的需求。所以我们把红队测试目标游戏化,设立奖金池,当人们找到方法来绕过和违反模型开发者的安全和安全目标时,给他们付费。这是第一点。这是一个非常棒的社区,大约 15000 人在 Discord 服务器上互动。并非所有人都参与每场比赛,但社区向上游模型开发者提供了很多好的数据和好的信号。第二是我们做的自动化红队测试。我们训练一组模型,使其非常有效且严格地进行自动化红队测试,既针对基础模型(仅作为基于回合的聊天机器人,没有工具等),也针对构建在它之上的智能体。而且这个领域还没有饱和,所以当前沿实验室找到我们时,我们仍然能够找到间接提示注入、越狱或通常让他们的模型做他们不希望做的事情的方法。
Zico [00:09:11]: 你是说没有工具的情况?
Matt [00:09:12]: 有和没有工具都包括。
Zico [00:09:13]: 有和没有工具。
Matt [00:09:13]: 所以我们肯定也在智能体上进行操作。
Zico [00:09:16]: 显然那会更有用。
Matt [00:09:17]: 是的。这实际上是最近才开始的。有一段时间,我们帮助前沿实验室的主要是更多的基于聊天的互动,绕过他们的内容安全策略和模型规范中的内容。现在重点非常集中在智能体、工具使用以及人们想要在其上构建的所有下游应用上。
Zico [00:09:39]: 这是一个启发性的主题。我想知道是否存在所谓的策略内红队测试,即来自同一家族、同一数据集的模型是否更有能力进行自我红队测试。
Matt [00:09:51]: 这是个有趣的问题。不幸的是,我们有能力在较小的开源模型上进行测试。
Zico [00:09:58]: 所以一般来说,问题在于前沿模型在自动化红队测试方面非常差,因为它们内置了很多安全措施。所以如果你试图用它们来越狱另一个模型,它们实际上会拒绝。它们的安全训练,作为基础模型本身,有时可以被绕过,但它们通常会拒绝这样做。也许它们会在假设层面上知道如何做,但你需要……这是一个重要的点,因为传统上,在安全方面,模型不会仅仅因为变大而变得更好,而在大多数其他领域,模型会随着变大而变得更好。安全传统上并非如此。你必须明确地训练它们变得安全,否则它们不会这样做。但另一方面,默认情况下,它们也不一定更擅长红队测试。你确实需要训练专门的红队测试模型,使它们擅长红队测试。
Matt [00:10:56]: 这对你们来说太棒了。
Zico [00:10:58]: 那么,要做到这一点需要什么?嗯,你需要大量来自传统上更擅长红队测试的人的数据。然而,我们正在发现一件事,我认为我们正在跨越这个点,在最新的许多实验中,我们现在可以在攻破这些模型方面比人类红队测试者做得好得多。当我说我们时,我指的是我们的自动化红队测试模型。这是一个叫做 Shade 的系统。这个系统现在实际上在攻破模型方面比人类好得多。我想到我们最近有一场人类和我们的模型之间的比赛,它实际上要好得多。所以我认为,这在很多方面与我们看到的正常模型进展不同,因为它非常分布外。从某种意义上说,红队测试一个模型的本质是寻找该模型本质上是分布外的事物,以便绕过它的正常行为。这从根本上不同于大多数模型所能做的事情。
Matt [00:12:01]: Zico,我想指出你刚刚向竞技场上的每个人发起了挑战,对吧?
Zico [00:12:06]: 试着做得比 Shade 更好。
Matt [00:12:07]: 它会……我想稍微说明一下。我认为,在给定的固定时间内,对于特定的……
相似文章
间接提示注入的见解(12分钟阅读)
Zico Kolter 和 Matt Fredrikson,Gray Swan 的领导者及 AI 安全专家,讨论了 AI 红队测试的现状以及间接提示注入——这是 AI 代理的关键漏洞。他们解释了为何 AI 安全需要不同的思维模式,自动化红队测试如何超越人类,并介绍了用于对抗性测试的工具 Shade。
@aiDotEngineer:Tokenmaxxing、生产力与内部 AI 平台——@swyx 对话《The Pragmatic Engineer》编辑 @GergelyOrosz
播客讨论“tokenmaxxing”、AI 带来的真实生产力提升,以及内部 AI 平台如何重塑软件工程师的角色。
@swyx: 这个播客是给社区的一份不可思议的礼物:不仅是我们第一个关于 @xAI 的播客,而且 Ethan 真的尽情回答了所有问题…
一条推文称赞了一期播客,前xAI世界模型负责人Ethan He深入分享了训练SOTA视频生成世界模型的见解,涵盖了Grok Imagine、Cosmos,以及视频与编码代理之间的相似之处。
@swyx: 完整文章和链接在此
Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。
@naval: 与 @rauchg、@maxhodak_ 和 @bscholl 的完整播客。40分钟未发布内容。AI工业革命…
Naval发布了一段40分钟的未公开播客,嘉宾包括Rauchg、Max Hodak和bscholl,分四部分讨论AI工业革命:软件工厂、氛围编码、医疗监管和自主公司。