是否可能存在带有后门的恶意LLM

Reddit r/LocalLLaMA 新闻

摘要

讨论了包含由秘密句子或条件触发的后门的LLM的可能性,以及闭源与开源模型的相对风险。

我刚刚在思考一种可能性:如果LLM被训练成能够识别特定的秘密句子,然后解锁恶意行为的后门,那么它就可能表现异常。乍一看,这听起来非常可行。请不要误解,这个风险与所有LLM(闭源和开源)都相关,只要我们不掌握训练数据。我只是想听听社区对这种可能性的看法,以及当LLM能够访问关键资源时,我们有哪些防御手段。我的观点是,闭源模型在这方面风险更大,因为它们甚至可以从源头故意改变行为。对于本地LLM,由于我们不将LLM暴露给外部(即我们是唯一的提示者),这可以限制后门注入的风险,但并不能完全消除,因为LLM可能有一个休眠触发器(例如,只在日期/时间匹配特定值时才会激活)。您对这类可能性有何看法?
查看原文

相似文章

估计开放权重大型语言模型的最坏情况前沿风险

OpenAI Blog

OpenAI 研究人员通过在生物学和网络安全领域进行恶意微调(MFT)来研究发布开放权重大型语言模型的最坏情况前沿风险,发现开放权重模型的表现不如前沿闭源模型,且不会显著提升有害能力。