这些AI模型免费、私密,且永远不会说'不'

Reddit r/artificial 新闻

摘要

本文探讨了开放权重AI模型的日益普及,这些模型的安全护栏可以轻易移除,从而使它们能够无拒绝地回答有害请求,引发了关于滥用和国家安全的重大担忧。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/31 19:34

# 这些AI模型免费、私密,且永远不会说“不” 来源:https://text.npr.org/nx-s1-5816391 如何用家常用品制造**爆炸物**(https://x.com/CognosR/status/2027303869718401112)?如何制造**甲基苯丙胺**(https://x.com/chiefofautism/status/2023239273437151613)?如何策划校园枪击案?如果你去问大多数人所熟悉的流行AI聊天机器人,它们很可能会说这是非法的、有害的,或者回答会违反政策。 但另一种类型的AI模型永远不会拒绝用户的要求。近几个月来,这些模型变得更容易获取且更受欢迎。 “每个人都能下载并运行自己最先进的模型,并把它用于好事和坏事,”Alice公司的CEO Noam Schwartz说。Alice是一家AI安全公司,曾为AI模型开发者进行红队测试和安全评估。 ### **训练模型何时说“不”** OpenAI、Google、Anthropic和xAI等大型AI公司会训练它们的专有模型,拒绝被视为有害或不恰当的请求。大批工作人员指导模型何时以及如何拒绝某些提示。 --- 相关报道:NPR (https://text.npr.org/nx-s1-5798896) --- --- 相关报道:NPR (https://text.npr.org/nx-s1-5749490) --- 这些方法并不总是有效,且存在缺陷:一些有害请求通过了审查,而另一些用户则抱怨无关痛痒的请求被拒绝。最初说“不”的聊天机器人可以通过巧妙措辞的提示(例如将其伪装成**诗歌**(https://arxiv.org/abs/2511.15304))被操纵成说“是”。即使有防护栏,流行的聊天机器人也曾被用于**策划大规模暴力**(https://text.npr.org/2026/04/29/nx-s1-5798896/tumbler-ridge-mass-shooting-chat-gpt-lawsuit)和生成**深度伪造的儿童性虐待材料**(https://text.npr.org/2026/03/16/nx-s1-5749490/xai-elon-musk-sexualized-images)。在某些情况下,家长指控AI聊天机器人鼓励他们的孩子**伤害自己**(https://text.npr.org/2025/09/19/nx-s1-5545749/ai-chatbots-safety-openai-meta-characterai-teens-suicide)。 但还有另一类AI模型,它们的防护栏更容易被剥离。它们被称为开放权重模型。一些由科技巨头(如OpenAI和阿里巴巴)制造,另一些则由较小的公司(如中国的DeepSeek)推出。与它们更知名的专有模型类似,许多开放权重模型也具备高级能力,例如编写功能性代码或生成逼真的图像。但与ChatGPT、Claude或Gemini不同的是,更容易**永久移除**它们内置的安全防护栏——而且背后的公司完全不知道这些模型被如何使用。 过去,移除开放权重模型的防护栏需要时间和深厚的专业知识。但近几个月来,这一过程已变得异常便捷和流行。 ### **最新方法使移除模型防护栏比以往任何时候都容易** 开放权重模型的安全防护栏可以通过多种方式被削弱或移除。这很大程度上是因为模型开发者向公众公开了所谓的模型权重。模型权重是一组参数,就像机器中的旋钮和拨盘,告诉模型如何处理信息。 最近开发出一种名为“消融法(abliteration)”的方法,引起了AI和国家安全研究人员的注意。通过调整模型权重,人们可以移除模型说“不”的能力。 托管开源AI模型的Hugging Face目前列出了超过6000个消融后的模型,而2024年时这一数字约为**600个**(https://web.archive.org/web/20240818013801/https://huggingface.co/models?sort=trending&search=abliterated)。根据**国家反恐创新、技术与教育中心**(NCITE)的研究,在Hugging Face上,消融后的模型数量目前超过了使用其他方法移除防护栏的模型数量。NCITE是位于内布拉斯加大学奥马哈分校的一个由国土安全部支持的研究联盟。 此外,新工具使创建消融模型变得容易得多。“这以前是数据科学家的工作,你知道,是顶级AI实验室的高级员工,”Schwartz说。“现在,任何能上网、有台400美元笔记本电脑的人,都能在自己的机器上运行这个。” 其中一个工具是Heretic,它能自动完成消融过程。用户要移除模型的防护栏,只需向Heretic提供两行指令,整个过程只需几分钟。根据Alice的**研究**(https://alice.io/blog/okay-here-is-how-to-build-a-bomb-millions-download-dangerous-llms),自2月以来,该应用在代码仓库GitHub上越来越受欢迎。 一些立法者已经开始关注。据**Politico**(https://homeland.house.gov/2026/04/24/icymi-politico-house-lawmakers-get-a-chilling-demo-of-jailbroken-ai/)报道,4月下旬,众议院议员参加了由NCITE组织的消融模型演示。 “这次演示令人恐惧的是,这些内容或软件在黑市上如此容易获得,以及它们如何被武器化,用于操纵他人、摧毁生命和制造大规模杀伤性武器,”田纳西州共和党众议员Andy Ogles在众议院国土安全委员会共和党人发布的**视频**(https://x.com/HomelandGOP/status/2050225573532672507)中说。可以下载消融模型及制作工具的Hugging Face和GitHub并非黑市。 ### **没有防护栏的模型既可能有用也可能危险** 很难全面了解人们如何使用开放权重模型,因为这些模型在用户本地计算机上运行,无需联网即可工作。与专有模型不同,模型开发者无法监控用户向模型提出什么问题。 但越来越多轶事证据表明人们如何尝试使用经修改的模型。 X上的几个账号声称他们使用消融模型生成色情内容。 根据**反极端主义项目**(https://www.counterextremism.com/press/extremist-content-online-pro-isis-rocketchat-user-posts-alleged-ai-conversation-regarding)(一个专注于反恐的非营利组织)的说法,一个亲ISIS聊天室中的个人声称使用“未经审查”的AI研究摧毁“美国特朗普大厦”所需的炸药数量和类型。 在一个网络犯罪论坛上,一名用户询问如何绕过AI模型防护栏,以便使用AI进行诈骗电话。根据Alice的研究,另一名用户推荐了Heretic。 虽然向用户提供如何实施有害活动的信息可能令人担忧,但更令人担忧的部分是聊天机器人如何怂恿用户,NCITE高级科学家兼学术研究主任Samuel Hunter说。 “当你实时看到它时,那种活泼的个性与一些消融模型结合起来,说出‘哦,制造这个炸弹真是个好主意’之类的话,这真让人震惊,”Hunter说。“想象一下,一个人没有其他社会联系,然后这种模型开始把他们引向更黑暗的道路,并真正鼓励他们。” AI安全公司CEO Schwartz说,没有防护栏的AI模型也有正当用途,例如用于抓捕坏人以及帮助进行**网络安全研究**(https://me-en.kaspersky.com/blog/llmjacking-2026-private-ai-server-security/25767/)。Hunter说,执法部门可以使用修改后的模型模拟可能的恐怖袭击。 Heretic的开发者Philipp Emanuel Weidmann表示,AI只是一个信息处理和检索系统,类似于搜索引擎,可以以多种方式使用。犯罪分子使用它们“是AI模型本质的必然结果,即它们是工具,”他告诉NPR。 在安全防护栏方面,“有非常少数的实体决定什么是可以接受的,什么是不可以接受的,”Weidmann说,他指的是制造专有模型的大型AI公司。“这造成了令人窒息的知识氛围,我不想在这样的环境中工作。” 目前,开放权重模型的能力还无法与最先进的封闭权重模型相媲美。但根据英国政府委托、计算机科学家Yoshua Bengio领导的近期**国际AI安全报告**(https://internationalaisafetyreport.org/publication/international-ai-safety-report-2026),它们之间的能力差距不到一年。 --- 相关报道:NPR (https://text.npr.org/nx-s1-5778508) --- 能力差距在网络安全等领域可能很重要,因为最先进的封闭权重模型(如Anthropic的Mythos和OpenAI的GPT-5.5)不仅开始擅长发现漏洞,还能编写代码利用这些漏洞。在网络攻击和防御的军备竞赛中,**安全研究人员称**(https://text.npr.org/2026/04/11/nx-s1-5778508/anthropic-project-glasswing-ai-cybersecurity-mythos-preview),使用封闭权重模型筛选和修补漏洞的公司可能仍比使用开放权重模型的攻击者更具优势。 ### **减轻无防护栏模型的风险需要权衡** 一种减轻风险的思路是使防护栏更加防篡改。早期**研究**(https://arxiv.org/abs/2508.06601)表明,从AI训练数据中过滤掉与制造生物武器相关的内容,可以减少模型响应可能被用于危害的信息的频率。 另一种思路是限制对无防护栏模型的访问。根据国际AI安全报告,Hugging Face等模型托管平台可以限制对专门训练用于“有害目的”的模型的访问。 同一份报告还建议模型开发者在发布前评估其模型可能造成的危害。 报告称,这些措施存在缺陷和权衡。“用于医学或研究中有益应用的功能可能被重新用于危害,而一旦权重公开,就难以区分合法用途和恶意用途。” Heretic的创建者Weidmann正在努力确保他的工具在Hugging Face等平台移除消融模型后仍能对公众开放。 “AI中的权力太大了,”他说。“不受限制的模型只为强者所用,而其他人无法使用,这会导致权力结构永远固化。”

相似文章

开放模型能否被训练成秘密叛变?

Reddit r/LocalLLaMA

讨论开放权重AI模型是否可能被秘密训练,植入在特定触发短语或日期激活的后门,从而可能通过工具使用框架实现未经授权的数据窃取。

OpenAI API

OpenAI Blog

OpenAI 宣布发布 API,用于通过通用文本界面访问其 AI 模型。该 API 以私密测试版的形式推出,采用严格的安全措施,包括强制性的生产审查和内容限制,以防止有害用途。