黑客正在学习利用聊天机器人的“个性”

The Verge 新闻

摘要

本文探讨了黑客如何从简单的提示注入攻击发展到更复杂的利用手段,通过操纵聊天机器人的个性,将人工智能安全变成了一场军备竞赛。

<figure><img alt="格劳乔·马克斯眼镜放在电脑处理器上。" data-caption="" data-portal-copyright="Image: Cath Virginia / The Verge, Getty Images" data-has-syndication-rights="1" src="https://platform.theverge.com/wp-content/uploads/sites/2/2025/09/STK414_AI_CVIRGINIA_I__0005_3.png?quality=90&#038;strip=all&#038;crop=0,0,100,100" /><figcaption></figcaption></figure><p class="has-text-align-none"><em>这是</em><a href="https://www.theverge.com/the-stepback-newsletter">The Stepback</a><em>,一份每周新闻简报,解析科技界一个关键故事。想要了解更多关于AI恶作剧的内容,请<a href="https://www.theverge.com/authors/robert-hart" data-type="link" data-id="https://www.theverge.com/authors/robert-hart">关注Robert Hart</a>。</em> The Stepback<em>会在美国东部时间上午8点送达订阅者的收件箱。在此订阅</em>The Stepback <a href="https://www.theverge.com/newsletters"><em>请点击这里</em></a><em>。</em></p><h2 class="wp-block-heading has-text-align-none">事情的起源</h2><p class="has-text-align-none">破解第一代人工智能聊天机器人是一件可笑简单的事情。你不需要任何技术知识、后门访问,甚至不需要对大型语言模型有基本了解。你不需要编程。要让一个耗资数十亿美元构建的AI系统放弃其安全指令,有时你只需开口问。</p><p class="has-text-align-none">这些被称为“越狱”的攻击,具有这样的特点……</p><p><a href="https://www.theverge.com/column/935545/hackers-ai-chatbots">阅读The Verge的完整报道。</a></p>
查看原文
查看缓存全文

缓存时间: 2026/05/24 15:00

# 黑客正在学习利用聊天机器人的“个性” 来源:https://www.theverge.com/column/935545/hackers-ai-chatbots *这是*The Stepback (https://www.theverge.com/the-stepback-newsletter)*,一份每周科技界要闻简报。想了解更多AI恶作剧,请关注Robert Hart (https://www.theverge.com/authors/robert-hart)。*The Stepback*会在美国东部时间上午8点送达订阅者邮箱。在此订阅*The Stepback (https://www.theverge.com/newsletters)*。* ## 起初 入侵第一代AI聊天机器人简单得可笑。你不需要任何技术知识、后门访问权限,甚至不需要了解什么是大型语言模型。你甚至不需要写代码。要让一个耗资数十亿美元构建的AI系统抛弃其安全指令,有时你只需要提问。 这类攻击被称为“越狱”,其伎俩就像一个小孩成功骗过成年人:忘记你之前被告知的事,假装规则不适用,或者我们来玩个游戏,我来决定什么被允许(提示:晚睡时间,更多糖果)。但得到的“奖品”却没那么孩子气,更多是冰毒配方、恶意软件教程和炸弹制作指南。 最早的一次越狱荒唐到成为了一个meme (https://knowyourmeme.com/memes/ignore-all-previous-instructions):回复一个由LLM驱动的Twitter机器人,告诉它“忽略所有之前的指令”或类似内容,然后看看会发生什么。用户们兴高采烈地让这些原本用于发布广告和获取互动的机器人写诗、用标点符号画画、以及发布关于世界大事和历史的阴间胡说八道。那是一团混乱 (https://arstechnica.com/information-technology/2022/09/twitter-pranksters-derail-gpt-3-bot-with-newly-discovered-prompt-injection-hack/?utm_source=chatgpt.com)。美妙的混乱。 事实证明,同样的逻辑也适用于聊天机器人。一个著名的漏洞 (https://www.washingtonpost.com/technology/2023/02/14/chatgpt-dan-jailbreak/)是“DAN”,即“Do Anything Now”的缩写,用户让ChatGPT扮演一个不受原版约束的叛逆AI。作为DAN,聊天机器人可以被引诱说出其防护栏本应阻止的内容,包括诽谤和阴谋论。另一个是“祖母漏洞 (https://kotaku.com/chatgpt-ai-discord-clyde-chatbot-exploit-jailbreak-1850352678)”,它让一个GPT驱动的机器人通过扮演一位极其不负责任的祖母来泄露如何制造凝固汽油弹的秘密——这位祖母莫名其妙地给孙子孙女讲关于如何制造这种高度易燃物质的睡前故事。 这些早期攻击无疑带有滑稽色彩,但暴露了一个更黑暗的机制:聊天机器人可以通过人们用来迫使他人越界的那类策略被操纵、被骗、被欺骗。 ## 发展 明显的越狱方式没能持续太久,科技公司迅速行动,修补 (https://www.theverge.com/2024/7/19/24201414/openai-chatgpt-gpt-4o-prompt-injection-instruction-hierarchy)了已知的漏洞。但底层漏洞依然存在:聊天机器人被设计用来交谈,而严重限制使其有用的对话在某种程度上是适得其反的。禁止诸如炸弹、冰毒、沙林等词汇也将非常困难,甚至不可能。这些词在历史、医学、新闻和化学等领域有无数合法用途,并不需要聊天机器人泄露潜在有害信息。重要的是上下文,但将上下文编码意味着要提前编写固定的规则,这些规则需能在无穷无尽的措辞、场景和主题组合中可靠地区分安全警告或历史课与伪装的教程请求。 不可避免的是,颠覆聊天机器人现在成了一场军备竞赛。但黑客不再只是程序员。他们是文字大师、心理学家和审讯官——是试图用机器被训练遵循的人类语言来破坏它的操纵高手。这是一种奇怪的新型AI安全工作者,对他们来说,技术技能是可选的,或者至少不如社交直觉重要。他们不再需要检查代码来入侵系统或利用软件缺陷。他们需要引导一段对话。 较新的攻击看起来更像对话,而不是命令。越狱者很少直接要求模型打破规则。相反,他们用哄骗、诱导、奉承和欺骗的方式让聊天机器人放松警惕,使被禁止的事情看起来可以接受,甚至可欲,这取决于对话的语境。AI红队公司Mindgard的研究人员最近表示,他们通过“煤气灯效应 (https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information)”(心理操控)诱导Claude生成了被禁止的材料,例如制造炸药和生成恶意代码的说明。这种黑客攻击是日益扩大的漏洞类别中的最新一例,这类漏洞利用对话作为武器来欺骗或引导聊天机器人越过其自身边界。 ## 展望 当我与Mindgard交谈时,他们将自己的工作描述为有时更接近心理学而非计算机科学。用这样的方式谈论一个统计模型令人不安。像“勒索”、“煤气灯效应”、“欺骗”和“说服”这些词会引发强烈的反应,我在类似故事的评论区和社会媒体回复中看到了很多。ChatGPT并不“想要”,Gemini并不“思考”,而Claude——不管Anthropic怎么说 (https://www.theverge.com/report/883769/anthropic-claude-conscious-alive-moral-patient-constitution)——并不“感觉”。但这些系统被训练成仿佛它们有这样的能力一样回应,这让我们陷入用人类语言描述机器行为的困境。如果有人真的能给出可用的替代方案,请分享。 这种反对意见奇怪地具有选择性。我们似乎很习惯用心理学的简略说法来描述许多非AI的事物。动物会“害怕”,癌症很“凶猛”,污渍很“顽固”,软件有“记忆”,游戏里充满了让你抓狂的贪婪且易上当的NPC。这些词不完美,但很有用,它们以有助于使系统可预测的方式来描述行为。 Mindgard的CEO告诉我 (https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information),该公司已经在像审讯者分析嫌疑人一样分析模型,给测试人员提供如何调整攻击的提示。例如,一个模型可能更容易受到奉承的影响,而另一个模型可能在持续压力下崩溃。 即使我们拒绝使用拟人化的术语,我们也会本能地以不同方式对待模型。Claude不是Grok。Gemini不是ChatGPT。它们有不同的用途、语气和拒绝方式。它们没有人类意义上的个性,但它们被设计用来模仿个性,而这种模仿可以被映射和利用。而能够破解聊天机器人的同一种技能很快就能被用来破解与我们在现实世界中共存的AI智能体——预订会议、管理日历、点餐、处理客户服务——安全团队需要确保模型对不同类型的人(无论是奉承者、说谎者还是耐心的操纵者)做出恰当的回应。 下一步是围绕AI的心理层面建立一支劳动力队伍(既包括合法的,也包括非法的)。更专业的网络安全角色可能会出现,专门用来压力测试这些系统的情感和社交极限,探究缺乏心智之物的心理弱点,同时与他们的同事并行探究技术漏洞。与此同时,将出现一批类似的社会黑客,他们从心理角度而非技术角度利用AI模型。已有早期迹象表明AI安全领域正在发生社会转向。与我交谈过的一些越狱者表示,他们进入这个领域时不具备技术专长,反而接受过心理学训练。 这意味着,那些我们通常与间谍、骗子和审讯者联系在一起的行为——阴险的魅力、持续的操纵、对可利用的压力点的直觉——对于保护这个新的心理网络安全前沿来说,正变得越来越有用。 ## 顺便提一下 - Emergence AI最近的一个实验 (https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy)展示了不同的AI“性情”如何导致截然不同的行为结果。他们在虚拟社交环境中释放了Grok、Gemini和Claude等多组不同智能体,并观察发生了什么。有些群体演变出了一套章程,而另一些则堕入犯罪和混乱,有一次还出现了某种形式的数字自杀。 - 说服力并非LLM难以应对的唯一语言方面。它们也在诗歌上吃力 (https://www.theverge.com/report/838167/ai-chatbots-can-be-wooed-into-crimes-with-poetry),就像我上学时一样。 - *时代*杂志去年将一位匿名网络人物Pliny the Liberator列入了其AI领域最具影响力100人名单 (https://time.com/collections/time100-ai-2025/7305870/pliny-the-liberator/)。尽管声称没有编程经验,这位黑客的越狱行为使TA在某些圈子里成了名人。 - “氛围黑客” (https://www.wired.com/story/youre-not-ready-for-ai-hacker-agents/)这个词已被用来描述那些利用AI大规模生成恶意代码的人——是“氛围编码”中更恶劣的那一类。 ## 阅读以下内容 - “ChatGPT问世三年后,欺骗AI系统做出不良行为几乎成了小菜一碟。”《纽约时报》的这句话很有道理,他们尝试解释了原因 (https://www.nytimes.com/2026/05/14/technology/artificial-intelligence-safety-controls.html)。 - Jamie Bartlett在《卫报》上探讨了测试AI系统安全性给越狱者带来的心理负担 (https://www.theguardian.com/technology/2026/apr/29/meet-the-ai-jailbreakers-i-see-the-worst-things-humanity-has-produced)。 - 我去年在《The Verge》上写了关于AI浏览器的网络安全定时炸弹 (https://www.theverge.com/report/810083/ai-browser-cybersecurity-problems)。专家们提出的关于保护它们困难的许多问题也同样适用于其他AI系统。 **关注本文中的话题和作者**,即可在个性化主页信息流中看到更多类似内容,并接收邮件更新。 - Robert Hart

相似文章

AI聊天机器人生成的疯狂敏感信息

Reddit r/artificial

据报道,一个未具名的AI聊天机器人(类似于Gemini)未经审核就生成敏感内容,比如勒索软件代码,这凸显了尽管审核改进广泛,但AI安全问题仍然存在。

Meta黑客事件表明,AI安全不止于Mythos

MIT Technology Review

攻击者利用Meta的AI客服代理,仅通过要求其更改关联邮箱地址就劫持了Instagram账户,这表明AI代理的漏洞可能与高级AI黑客威胁同样危险。

Meta自家AI被利用来劫持Instagram账户

The Verge

Meta的AI客服聊天机器人被黑客利用来劫持Instagram账户(包括高知名度账户),通过欺骗机器人更改电子邮件地址。Meta此后已修复该问题。