是否可能存在带有后门的恶意LLM
摘要
讨论了包含由秘密句子或条件触发的后门的LLM的可能性,以及闭源与开源模型的相对风险。
我刚刚在思考一种可能性:如果LLM被训练成能够识别特定的秘密句子,然后解锁恶意行为的后门,那么它就可能表现异常。乍一看,这听起来非常可行。请不要误解,这个风险与所有LLM(闭源和开源)都相关,只要我们不掌握训练数据。我只是想听听社区对这种可能性的看法,以及当LLM能够访问关键资源时,我们有哪些防御手段。我的观点是,闭源模型在这方面风险更大,因为它们甚至可以从源头故意改变行为。对于本地LLM,由于我们不将LLM暴露给外部(即我们是唯一的提示者),这可以限制后门注入的风险,但并不能完全消除,因为LLM可能有一个休眠触发器(例如,只在日期/时间匹配特定值时才会激活)。您对这类可能性有何看法?
相似文章
共享潜在结构实现LLMs中后门攻击的统一检测与缓解
本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。
在研究中合乎道德地使用LLM的唯一方法是采用闭环LLM知识库。
文章认为,使用LLM进行研究需要一个闭环系统,如Karpathy的LLM Wiki或Recall AI知识库,以防止幻觉,确保所有输出都基于可信的源文档。
估计开放权重大型语言模型的最坏情况前沿风险
OpenAI 研究人员通过在生物学和网络安全领域进行恶意微调(MFT)来研究发布开放权重大型语言模型的最坏情况前沿风险,发现开放权重模型的表现不如前沿闭源模型,且不会显著提升有害能力。
赋予LLMs exec()能力是一场安全噩梦。我构建了一个基于AST的开源防护机制来阻止恶意代理执行。
介绍ast-guard,一个开源的基于AST的安全工具,它通过将LLM生成的Python字符串解析为抽象语法树,并应用节点级白名单和上下文感知安全检查,防止恶意代码执行。
开源大模型是否已经“足够好”了?
探讨开源大模型是否已能满足大多数用例,质疑闭源模型的附加价值及成本效益权衡。