是否可能存在带有后门的恶意LLM

Reddit r/LocalLLaMA 2026/06/29 11:52 新闻

摘要

讨论了包含由秘密句子或条件触发的后门的LLM的可能性，以及闭源与开源模型的相对风险。

我刚刚在思考一种可能性：如果LLM被训练成能够识别特定的秘密句子，然后解锁恶意行为的后门，那么它就可能表现异常。乍一看，这听起来非常可行。请不要误解，这个风险与所有LLM（闭源和开源）都相关，只要我们不掌握训练数据。我只是想听听社区对这种可能性的看法，以及当LLM能够访问关键资源时，我们有哪些防御手段。我的观点是，闭源模型在这方面风险更大，因为它们甚至可以从源头故意改变行为。对于本地LLM，由于我们不将LLM暴露给外部（即我们是唯一的提示者），这可以限制后门注入的风险，但并不能完全消除，因为LLM可能有一个休眠触发器（例如，只在日期/时间匹配特定值时才会激活）。您对这类可能性有何看法？

查看原文

是否可能存在带有后门的恶意LLM

相似文章

共享潜在结构实现LLMs中后门攻击的统一检测与缓解

在研究中合乎道德地使用LLM的唯一方法是采用闭环LLM知识库。

估计开放权重大型语言模型的最坏情况前沿风险

赋予LLMs exec()能力是一场安全噩梦。我构建了一个基于AST的开源防护机制来阻止恶意代理执行。

开源大模型是否已经“足够好”了？

提交意见反馈