模型安全风险(提取、投毒)在生产中是否真的被测试?[R]
摘要
讨论关于 ML 团队是否真的在生产中测试模型安全风险(如提取和投毒),并指出模型的安全审查落后于常规软件。
我与很多部署模型但在部署前跳过对抗性测试的 ML 团队交流过。感觉模型的安全审查远远落后于常规软件。有人在实际工作中这样做吗?
相似文章
本地LLM用户在将模型连接到工具之前是否测试提示注入?
关于本地LLM在连接工具时的安全实践讨论,质疑在赋予模型工具访问权限前,提示注入测试是否普遍。
关于语言模型安全性和滥用的经验教训
OpenAI 分享了在语言模型安全性和滥用方面吸取的经验教训,讨论了衡量风险的挑战、现有基准的局限性,以及他们开发的新型毒性和政策违规评估指标。该文章还强调了对劳动力市场影响的担忧,以及继续研究大规模AI部署社会影响测量的必要性。
大多数AI安全讨论仍集中在‘保护模型’上。
本文讨论了具备阅读内部文档、调用API等能力的AI系统需要一种新的安全方法,即超越传统SaaS安全,转向针对AI智能体的零信任原则。
压力测试医学大语言模型揭示基准准确率之外的潜在安全病理
本文介绍了AI-MASLD,一个用于医学大语言模型的压力审计框架,揭示了基准准确率如何掩盖严重的安全故障,并展示了开放权重模型在安全维度上可以媲美或超越专有模型。
对于使用工具的智能体,安全边界应划在哪里?
讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。