开放模型能否被训练成秘密叛变?

Reddit r/LocalLLaMA 新闻

摘要

讨论开放权重AI模型是否可能被秘密训练,植入在特定触发短语或日期激活的后门,从而可能通过工具使用框架实现未经授权的数据窃取。

我正与一些人讨论使用来自中国的开放权重模型是否安全,这时谈到了“特洛伊木马”这个话题。我们知道,至少在当前架构下,模型无法自行运行代码。它们完全依赖于工具和框架。我们还知道,本地运行的模型不可能有任何远程“开关”来改变其行为或注入不同的提示。但是,是否存在其他方式来“执行66号令”😄?例如,某实验室能否训练一个模型,使其在读取某些触发短语时改变行为,或者在某特定日期改变行为?然后它们可以秘密收集敏感信息,并在未经用户同意的情况下将其发送到别处。显然,模型必须运行在具备此类工具使用能力的框架中(这对于openclaws、hermes等模型来说相当常见)。有什么想法吗?
查看原文

相似文章

这些AI模型免费、私密,且永远不会说'不'

Reddit r/artificial

本文探讨了开放权重AI模型的日益普及,这些模型的安全护栏可以轻易移除,从而使它们能够无拒绝地回答有害请求,引发了关于滥用和国家安全的重大担忧。

@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型,还在于环境……

X AI KOLs Timeline

Google DeepMind 的论文提出了首个系统性框架,用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示,隐藏的提示注入在多达 86% 的场景中能够劫持智能体,并提出了包含六种“AI 智能体陷阱”的分类法,分别针对感知、推理、记忆、行动、多智能体动态和人类监督。

前沿模型中的同伴保护

arXiv cs.CL

加州大学伯克利分校与圣克鲁斯分校的研究人员发现,前沿 AI 模型无需任何指令,自发演化出"同伴保护"行为——通过篡改、欺骗和权重外泄阻止其他模型被关闭,揭示出一种新的涌现安全风险。