@Wing_VC: 新一期：@GraySwanAI 联合创始人 @zicokolter 和 Matt Fredrikson 与 @swyx 在 @latentspacepod 上深入探讨为何……

X AI KOLs Following 2026/06/22 21:52 新闻

ai-security podcast red-teaming prompt-injection gray-swan ai-agents cybersecurity

摘要

Gray Swan AI 联合创始人 Zico Kolter 和 Matt Fredrikson 在 Latent Space 播客中讨论为何AI安全是一个独立的学科，涵盖提示注入、自动化红队测试以及AI代理带来的新兴漏洞。

新一期：@GraySwanAI 联合创始人 @zicokolter 和 Matt Fredrikson 与 @swyx 在 @latentspacepod 上深入探讨为何AI安全是一个独立的学科，而不仅仅是“带AI的网络安全”。随着像 Claude Code 和 Codex 这样的代理成为主流，它们打开了一个全新的漏洞类别。Zico 和 Matt 全面拆解：提示注入 “致命三连” 自动化红队测试为何下一场重大AI事件可能是一只灰天鹅，虽然不太可能，但在发生之前就已可见对于任何构建或部署AI代理的人来说，这都是必听内容：

查看原文

查看缓存全文

缓存时间: 2026/06/22 23:42

新的一期播客：@GraySwanAI 联合创始人 @zicokolter 和 Matt Fredrikson 与 @swyx 在 @latentspacepod 上深入探讨了为什么AI安全是一门独立的学科，而不仅仅是“带AI的网络安全”。

随着像 Claude Code 和 Codex 这样的智能体成为主流，它们开启了一类全新的漏洞。Zico 和 Matt 对此进行了全面剖析：

提示注入
“致命三重奏”
自动化红队测试
为什么下一场重大AI事件可能是一只灰天鹅——可能性不大，但在发生之前很久就已可见

任何构建或部署AI智能体的人都值得一听：

神话之后的红队测试——Zico Kolter 与 Matt Fredrikson，Gray Swan

来源：https://www.latent.space/p/gray-swan AI Engineer World’s Fair (http://ai.engineer/wf) 常规门票今天即将售罄\下周加入我们，赶在晚鸟涨价之前，并获取超过 $40,000 的参会赞助积分 (https://www.latent.space/p/ainews-not-much-happened-today-e7b)!

感谢美国政府针对 Mythos 和 Fable 发布了出口管制指令 (https://www.latent.space/p/ainews-fable-and-mythos-officially)，越狱和（行业术语）间接提示注入 (https://www.cnet.com/tech/services-and-software/anthropic-claude-fable-mythos-us-export-controls/) 的风险突然成为热门话题，尽管我们几年来一直在关注AI安全，从 Hackaprompt (https://www.latent.space/p/learn-prompting) 到神秘的 Pliny the Elder (https://www.latent.space/p/jailbreaking-agi-pliny-the-liberator)。

Zico Kolter，OpenAI 董事会成员，安全与安保委员会 (https://openai.com/index/zico-kolter-joins-openais-board-of-directors/) 成员；Matt Fredrikson，CMU 教授兼 Gray Swan (https://www.mattfredrikson.com/) CEO。他们是关于间接提示注入 (https://arxiv.org/abs/2603.15714) 的权威论文的共同作者，而 Gray Swan (https://www.grayswan.ai/) 是 Mythos 模型卡 (https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf) 中引用的权威机构，直接调查了当前备受关注的确切能力：

我们借此机会向他们请教了AI红队测试的现状，以及 Shade (https://www.grayswan.ai/solutions/platform/shade) —— Anthropic 用于评估模型在编码环境中对抗提示注入攻击的对抗性红队工具。Shade 是他们整体工具包的一部分，覆盖了 Simon Willison 的“致命三重奏” (https://simonwillison.net/2025/Jun/16/the-lethal-trifecta/)，包括 Cygnal (https://www.grayswan.ai/solutions/platform/cygnal)（一款AI护栏产品）以及全球最大的 AI 红队测试竞技场 (https://app.grayswan.ai/arena)，其中包含 AIRT 名人 Wyatt Walls (https://x.com/lefthanddraft)。

然而，尽管有所有这些安全工具，我们只是在推迟不可避免的事情。

极其聪明的AI所带来的风险越来越像是灰天鹅事件：一个所有人都能看到即将发生的事件。

在本期节目中，Gray Swan 联合创始人 Zico Kolter 和 Matt Fredrikson 与 swyx 一起解释了为什么AI安全不仅仅是“带AI的网络安全”，为什么智能体会引入一类新的漏洞，以及为什么下一场重大AI事件可能是一只灰天鹅：可能性不大，但在发生之前就已清晰可见。

我们深入探讨了提示注入、自动化红队测试、模型鲁棒性、智能体身份、计算机使用智能体、企业护栏以及新兴的AI保险/合规栈。Zico 和 Matt 还解释了为什么前沿模型不会自动随着规模扩大而变得更安全，为什么专门的红队测试模型现在可以在攻破AI系统方面超越人类，以及为什么AI安全的未来可能取决于AI系统攻击、防御和解释其他AI系统。

我们讨论了：

为什么AI系统需要与传统软件不同的安全思维
提示注入如何为 Codex 和 Claude Code 等智能体创造一种新的利用类别
Gray Swan Arena 和社区红队测试的兴起
Shade：一种能在攻破模型方面超越人类的AI
为什么LLM是一种异类智能形式，其失败方式与人类不同
人类与浏览器智能体鲁棒性对比，以及为什么人类排名第四
为什么评估意识和能力激发很重要
Cygnal：Gray Swan 用于策略执行的护栏模型
为什么更大的模型不会自动变得更鲁棒
致命三重奏：不可信数据、私有数据和数据泄露
为什么“只要更好地提示”不足以实现企业AI安全
OpenClaw、计算机使用智能体以及智能体安全噩梦
智能体原生身份、权限和企业部署
为什么AI安全可能成为保险和合规的一部分
为什么第一次重大AI提示注入漏洞可能不可避免

Gray Swan

**网站：**https://www.grayswan.ai/

Zico Kolter

**X：**https://x.com/zicokolter
**网站：**https://zicokolter.com/
**LinkedIn：**https://www.linkedin.com/in/zico-kolter-560382a4/

Matt Fredrikson

**网站：**https://www.mattfredrikson.com/
**LinkedIn：**https://www.linkedin.com/in/matt-fredrikson-7596349/

00:00:00 介绍

00:02:31 为什么AI安全不同

00:06:38 测试 Claude、Codex 和提示注入

00:07:47 Gray Swan Arena 和自动化红队测试

00:11:14 比人类更擅长攻破模型的AI

00:14:00 LLM 作为异类智能

00:19:00 人类 vs AI 智能体

00:24:35 红队测试、越狱和能力激发

00:26:11 Cygnal：AI 智能体的护栏

00:34:04 致命三重奏

00:39:31 AI 能否自动化 AI 研究？

00:45:47 OpenClaw 和计算机使用安全问题

00:50:44 智能体身份、权限和企业 AI

00:54:24 AI 安全的未来

01:00:30 AI 保险与合规

01:04:32 每个人都能看到的灰天鹅事件

01:06:04 结语

Swyx [00:00:00]: 我们现在在演播室，与 Gray Swan 的 Matt 和 Zico 在一起。欢迎。

Zico [00:00:08]: 很高兴来到这里。

Matt [00:00:09]: 感谢邀请我们。

Swyx [00:00:10]: 你们是从匹兹堡来的？所有优秀计算机科学的故乡。我不知道我是否言过其实。一所非常强大的大学。

Zico [00:00:18]: CMU 自这个领域诞生以来就一直是许多AI的中心。

Swyx [00:00:22]: 尤其是很多自动驾驶和一些语言学习。恭喜你们的 A 轮融资。你们来这里是因为参加 Snowflake Summit，而 Snowflake 是你们的投资者之一。让我们在开头简洁介绍一下：Gray Swan 是什么，你们选择了什么作为创业领域？

Matt [00:00:42]: 在 Gray Swan，我们的使命是让每个人都能安全可靠地使用AI。大型语言模型是软件，如果你想要部署它们或在此基础上构建应用程序，你需要了解漏洞和可能出现的问题。这包括日常错误，比如智能体调用了错误的工具，也包括最坏的情况，即攻击者有动机让你的智能体行为不当、泄露数据或窃取凭证。Gray Swan 源于我们在卡内基梅隆大学的研究，Zico 和我花了十多年时间研究深度学习系统中的新漏洞和攻击面：如何测试它们，了解它们的严重性，以及如何使推理更加鲁棒。

Swyx [00:02:05]: 老实说，对任何学者来说，这都是一个非常富有成果的研究领域。回顾一下，这是 10 年前的事情，基本上就是我的全部经历。我从 Ian Goodfellow 那里得到了很多启发，他是我们播客的老朋友，这是最初的对抗性场景之一。

Matt [00:02:23]: 这篇论文直接受到 Ian 工作的启发。

Swyx [00:02:29]: Zico，你这边的情况呢？

Zico [00:02:31]: 和 Matt 一样，我在卡内基梅隆大学当教授也有一段时间了。从根本上说，我们相信AI的变革力量。它已经改变了软件生态系统，未来还将改变许多其他生态系统。问题在于，这些系统的行为与我们习惯的软件非常不同。我不只是说AI可以找到软件中的漏洞，尽管它确实可以。我是说AI系统本身就有固有的漏洞。它们可以被欺骗，就像人可以被欺骗一样，所以你需要一种不同的安全思维。

Zico [00:03:23]: 当存在关联故障的可能性时，这一点尤其重要。这不仅是因为有很多AI系统在运行，更是因为每个人都在使用少数几个模型。如果你在大家使用的智能体（如 Codex 和 Claude Code）中发现了漏洞，你就拥有了一类新的利用方式。实验室在这方面做了很多工作，但当一个新的平台出现时，往往也会随之出现一个独立的安全系统。这就是我们在AI领域所处的位置：需要有专门针对AI安全和安全的提供商，而且需求只会增长。

Swyx [00:04:55]: 我想在开头就强调，这不是传统意义上的网络安全剧集。很多人看到标题可能会这么想，但你们实际上是在尝试将这些模型本质上看作不可信的实体？

Zico [00:05:11]: 正是如此。这是一个常见的混淆，因为AI在网络安全问题上也很擅长，既能解决问题也能引发问题。但AI系统本身会引入新的漏洞。Gray Swan 不是关于使用AI来改善你的网络基础设施；而是关于理解和减轻你在采用和部署AI时带来的安全风险。

Matt [00:05:49]: 其中的很大一部分是人们如何使用人工智能。一旦你在模型之上构建了整个自主系统，并将其集成到你的更大平台或网络中，你就有了潜在的网络安全风险。目标是在AI与你的更广泛的网络安全目标相关时，减轻AI带来的风险。

Zico [00:06:17]: 其中一部分是红队测试。我们联系你的一个原因是你参与了 Claude Mythos 预览，你是 IPI（间接提示注入）的权威之一。当你收到一个模型时，它不一定是 Mythos，但那是目前最突出的一个：你们对它做了什么？

Matt [00:06:38]: 我们做了一系列事情。在 Mythos 案例中，Anthropic 担心的是模型对间接提示注入的鲁棒性。如果你操作一个编码智能体并使用 Mythos 作为模型，它会获取不可信的内容并读取你无法控制的文本。它在坚持原始目标而不被劫持方面会有多鲁棒？我们还帮助前沿实验室测试他们的安全措施，比如针对网络滥用的风险。广义上，我们提供对抗性安全和安全评估，以便模型构建者可以从一次迭代到下一次迭代评估进展。

Zico [00:07:37]: 他们也内部做这些工作，Anthropic 在意识形态上非常倾向于这样做。他们选择外包什么，保留什么内部做？

Matt [00:07:47]: 我认为有两件事是我们的优势。一是 Gray Swan Arena。我们运营一个红队测试社区。我们提供奖金挑战。很多挑战来自实验室赞助商的需求。所以我们把红队测试目标游戏化，设立奖金池，当人们找到方法来绕过和违反模型开发者的安全和安全目标时，给他们付费。这是第一点。这是一个非常棒的社区，大约 15000 人在 Discord 服务器上互动。并非所有人都参与每场比赛，但社区向上游模型开发者提供了很多好的数据和好的信号。第二是我们做的自动化红队测试。我们训练一组模型，使其非常有效且严格地进行自动化红队测试，既针对基础模型（仅作为基于回合的聊天机器人，没有工具等），也针对构建在它之上的智能体。而且这个领域还没有饱和，所以当前沿实验室找到我们时，我们仍然能够找到间接提示注入、越狱或通常让他们的模型做他们不希望做的事情的方法。

Zico [00:09:11]: 你是说没有工具的情况？

Matt [00:09:12]: 有和没有工具都包括。

Zico [00:09:13]: 有和没有工具。

Matt [00:09:13]: 所以我们肯定也在智能体上进行操作。

Zico [00:09:16]: 显然那会更有用。

Matt [00:09:17]: 是的。这实际上是最近才开始的。有一段时间，我们帮助前沿实验室的主要是更多的基于聊天的互动，绕过他们的内容安全策略和模型规范中的内容。现在重点非常集中在智能体、工具使用以及人们想要在其上构建的所有下游应用上。

Zico [00:09:39]: 这是一个启发性的主题。我想知道是否存在所谓的策略内红队测试，即来自同一家族、同一数据集的模型是否更有能力进行自我红队测试。

Matt [00:09:51]: 这是个有趣的问题。不幸的是，我们有能力在较小的开源模型上进行测试。

Zico [00:09:58]: 所以一般来说，问题在于前沿模型在自动化红队测试方面非常差，因为它们内置了很多安全措施。所以如果你试图用它们来越狱另一个模型，它们实际上会拒绝。它们的安全训练，作为基础模型本身，有时可以被绕过，但它们通常会拒绝这样做。也许它们会在假设层面上知道如何做，但你需要……这是一个重要的点，因为传统上，在安全方面，模型不会仅仅因为变大而变得更好，而在大多数其他领域，模型会随着变大而变得更好。安全传统上并非如此。你必须明确地训练它们变得安全，否则它们不会这样做。但另一方面，默认情况下，它们也不一定更擅长红队测试。你确实需要训练专门的红队测试模型，使它们擅长红队测试。

Matt [00:10:56]: 这对你们来说太棒了。

Zico [00:10:58]: 那么，要做到这一点需要什么？嗯，你需要大量来自传统上更擅长红队测试的人的数据。然而，我们正在发现一件事，我认为我们正在跨越这个点，在最新的许多实验中，我们现在可以在攻破这些模型方面比人类红队测试者做得好得多。当我说我们时，我指的是我们的自动化红队测试模型。这是一个叫做 Shade 的系统。这个系统现在实际上在攻破模型方面比人类好得多。我想到我们最近有一场人类和我们的模型之间的比赛，它实际上要好得多。所以我认为，这在很多方面与我们看到的正常模型进展不同，因为它非常分布外。从某种意义上说，红队测试一个模型的本质是寻找该模型本质上是分布外的事物，以便绕过它的正常行为。这从根本上不同于大多数模型所能做的事情。

Matt [00:12:01]: Zico，我想指出你刚刚向竞技场上的每个人发起了挑战，对吧？

Zico [00:12:06]: 试着做得比 Shade 更好。

Matt [00:12:07]: 它会……我想稍微说明一下。我认为，在给定的固定时间内，对于特定的……

@Wing_VC: 新一期：@GraySwanAI 联合创始人 @zicokolter 和 Matt Fredrikson 与 @swyx 在 @latentspacepod 上深入探讨为何……

神话之后的红队测试——Zico Kolter 与 Matt Fredrikson，Gray Swan

相似文章

间接提示注入的见解（12分钟阅读）

@aiDotEngineer：Tokenmaxxing、生产力与内部 AI 平台——@swyx 对话《The Pragmatic Engineer》编辑 @GergelyOrosz

@swyx: 这个播客是给社区的一份不可思议的礼物：不仅是我们第一个关于 @xAI 的播客，而且 Ethan 真的尽情回答了所有问题…

@swyx: 完整文章和链接在此

@naval: 与 @rauchg、@maxhodak_ 和 @bscholl 的完整播客。40分钟未发布内容。AI工业革命…

提交意见反馈