模型安全风险（提取、投毒）在生产中是否真的被测试？[R]

Reddit r/MachineLearning 2026/06/23 10:52 新闻

model-security adversarial-testing ml-ops production extraction poisoning

摘要

讨论关于 ML 团队是否真的在生产中测试模型安全风险（如提取和投毒），并指出模型的安全审查落后于常规软件。

我与很多部署模型但在部署前跳过对抗性测试的 ML 团队交流过。感觉模型的安全审查远远落后于常规软件。有人在实际工作中这样做吗？

查看原文

相似文章

Reddit r/LocalLLaMA

关于本地LLM在连接工具时的安全实践讨论，质疑在赋予模型工具访问权限前，提示注入测试是否普遍。

OpenAI Blog

OpenAI 分享了在语言模型安全性和滥用方面吸取的经验教训，讨论了衡量风险的挑战、现有基准的局限性，以及他们开发的新型毒性和政策违规评估指标。该文章还强调了对劳动力市场影响的担忧，以及继续研究大规模AI部署社会影响测量的必要性。

Reddit r/AI_Agents

本文讨论了具备阅读内部文档、调用API等能力的AI系统需要一种新的安全方法，即超越传统SaaS安全，转向针对AI智能体的零信任原则。

arXiv cs.AI

本文介绍了AI-MASLD，一个用于医学大语言模型的压力审计框架，揭示了基准准确率如何掩盖严重的安全故障，并展示了开放权重模型在安全维度上可以媲美或超越专有模型。

Reddit r/AI_Agents

讨论AI智能体使用工具的安全风险，重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为，以及在授予权限前需要进行可重复测试。