开放模型能否被训练成秘密叛变？

Reddit r/LocalLLaMA 2026/05/24 22:05 新闻

open-weights ai-safety trojan-horse model-security trigger-phrases backdoor-attacks

摘要

讨论开放权重AI模型是否可能被秘密训练，植入在特定触发短语或日期激活的后门，从而可能通过工具使用框架实现未经授权的数据窃取。

我正与一些人讨论使用来自中国的开放权重模型是否安全，这时谈到了“特洛伊木马”这个话题。我们知道，至少在当前架构下，模型无法自行运行代码。它们完全依赖于工具和框架。我们还知道，本地运行的模型不可能有任何远程“开关”来改变其行为或注入不同的提示。但是，是否存在其他方式来“执行66号令”😄？例如，某实验室能否训练一个模型，使其在读取某些触发短语时改变行为，或者在某特定日期改变行为？然后它们可以秘密收集敏感信息，并在未经用户同意的情况下将其发送到别处。显然，模型必须运行在具备此类工具使用能力的框架中（这对于openclaws、hermes等模型来说相当常见）。有什么想法吗？

查看原文

开放模型能否被训练成秘密叛变？

相似文章

这些AI模型免费、私密，且永远不会说'不'

@lqiao：封闭模型提供商最危险的句子是：“我们换了模型，没人注意到。” 这正是……

OpenAI 害怕开放权重模型。美国也应该害怕吗？

是否应该因担心恶意行为者而禁止公众访问极其强大的模型？开源是否鲁莽？

“安全AI”是什么样的？[D]

提交意见反馈