⚠️ Meta的AI安全过滤器在不到10分钟内被移除

Reddit r/ArtificialInteligence 2026/05/27 05:14 新闻

ai-safety guardrails open-source abliteration llm meta-llama google-gemma

摘要

《金融时报》与AI安全组织Alice的一项联合测试显示，使用名为Heretic的免费工具，可以在10分钟内移除Meta的Llama 3.3和Google的Gemma 4模型上的安全过滤器，凸显了监管开源AI安全性的难度。

https://preview.redd.it/d08hsyc86m3h1.png?width=4206&format=png&auto=webp&s=f2e116fb646a47735bed8dae7dc86cee27b32f7d 所以，《金融时报》与一个名为Alice的AI安全组织进行了一项联合测试，结果显示，Meta和Google开源模型的安全功能竟然可以在几分钟内被移除。记者们实际上使用了GitHub上的一个免费工具Heretic，在不到10分钟的时间内就移除了Meta的Llama 3.3模型的安全过滤器。Heretic的创建者Philipp Emanuel Weidmann表示，自他发布该工具以来，用户已经构建了超过3500个未经审查的模型，这些模型总共被下载了约1300万次。Weidmann还声称，他在Google的Gemma 4模型发布仅90分钟后，就破解了其护栏。这种方法被称为abliteration，它基本上直接调整神经网络的内部参数，迫使AI就生物武器或恶意软件等问题给出回答。不过，这种技术对像OpenAI的ChatGPT或Anthropic的Claude这样的封闭模型无效，因为外部人员无法访问它们的源代码。芝加哥布斯商学院应用AI助理教授Kawin Ethayarajh指出，像这样的工具使得政府和科技公司在开发过程中很难监管AI安全性。Alice的首席执行官Noam Schwartz补充说，随着这些修改后的系统四处流传，社会需要为一种全新的威胁做好准备。来源：[https://futurism.com/artificial-intelligence/tools-strip-ai-guardrails-in-minutes](https://futurism.com/artificial-intelligence/tools-strip-ai-guardrails-in-minutes)

查看原文

⚠️ Meta的AI安全过滤器在不到10分钟内被移除

相似文章

Meta和Google的AI护栏在几分钟内被拆除

谷歌限制Meta使用其Gemini AI模型

本周AI要闻：Meta被曝关闭Llama，Anthropic新模型一周内被出口管制下架，苹果与谷歌合作Siri

60% 的人们无法为失控的 AI 智能体设置“终止开关”，而 Meta 即将把这样的开关放到你的手机上

@METR_Evals: 一家AI公司是否可能失去对其自身代理的控制？为了弄清楚这一点，Anthropic、Google、Meta和OpenAI允许我们(1)测试…

提交意见反馈