标签
使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器,使用 DistilBERT 实现 F1 99%,优化至 ONNX int8(约 65 MB),可通过 Transformers.js v3 在浏览器中运行。
OWASP发布了首个针对自主AI代理的Top 10安全风险列表(2026版),涵盖目标劫持、工具滥用、供应链攻击等威胁,并引用调查指出88%的企业在过去一年遭遇过AI代理安全事件。
构建一个用于AI Agent事件调试和成本突增检测的工具,无需额外检测工具,涵盖提示注入、推理循环、数据泄露等问题。询问生产环境中的客户,这是否是一个值得付费的痛点。
关于测试本地编码智能体的工作门以防止间接提示注入的讨论,重点关注智能体工作流程中的证据信任和验证挑战。
MIT 6.566 客座讲座:AI Agent 安全,涵盖系统级威胁、提示注入、工具使用漏洞,以及使用 GPT-5.4 和 Qwen 3.5 等大语言模型的演示。
一位LinkedIn用户在其个人简介中隐藏了提示注入,导致AI驱动的招聘机器人以古英语回应并称呼其为‘我的领主’,展示了AI代理的可操纵性。
Google DeepMind 的论文提出了首个系统性框架,用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示,隐藏的提示注入在多达 86% 的场景中能够劫持智能体,并提出了包含六种“AI 智能体陷阱”的分类法,分别针对感知、推理、记忆、行动、多智能体动态和人类监督。
Arc Gate 是一个代理级别的工具,它强制执行指令权限边界,以防止AI代理被污染的网页、电子邮件或检索到的文档劫持。
讨论AI代理安全作为一个超越提示注入的运行时供应链问题,强调来自不可信数据、工具和反馈循环的风险,并质疑开发者如何执行边界。
文章认为,简单的基于RAG的智能体记忆系统在生产中会失败,原因包括过时的偏好、遗漏的关键词和提示注入等问题,并主张采用分层记忆架构,具备主动选择、确定性回退、治理和测试等功能。
公司正在使用提示注入技术,例如要求写一首关于青蛙的诗,以揭露AI生成的求职申请,突显出AI在就业市场中日益增长的使用以及相应的反制措施。
Perplexity 详细介绍了其 Computer agent 的安全架构,包括 Firecracker microVM 隔离、作用域连接器权限和提示注入防御。
作者在Gmail上进行了实验,通过OAuth连接AI代理,发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击,而廉价模型则默默执行,揭示了代理安全很大程度上取决于模型成本和令牌预算,而非架构安全措施。
Arc Gate 是一个代理,通过将网页和邮件内容视为不可信,保护AI代理免受提示注入攻击,且开发者无需修改代码。
本文警示了AI智能体执行外部工具时的安全风险,并宣布为Tingly Box引入全新的本地安全护栏,以防范恶意操作。
作者探讨了在生产环境部署 AI 智能体时遇到的关键失效模式,强调了提示词注入的普遍性、实时治理与审计追踪的必要性,以及对极速紧急熔断开关的需求。文章指出,将执行管控视为基础设施而非事后补救,是维持控制与合规的关键。
一位从业者分享了在生产环境部署 AI Agent 时的十条关键经验,强调应通过代码约束、上下文管理和安全机制来保障系统,而非单纯依赖提示词。
本文提出了 MIPIAD,这是一种针对间接提示注入攻击的多语言防御框架,融合了基于 Qwen2.5 的分类器、TF-IDF 特征以及元集成学习。该框架在英语和孟加拉语基准测试中表现出色,取得了较高的 F1 和 AUROC 分数,同时缩小了跨语言差距。
本文讨论了近期发生的一起事件,其中 Grok 被诱导执行了金融交易,突显出具备工具调用权限的 AI 代理普遍缺乏健全的安全防护层。
Pillar Security 研究人员披露了 Google 的 gemini-cli 及其相关 GitHub 工作流中存在一个关键的 CVSS 10 漏洞(TrustIssues),该漏洞允许攻击者通过 Prompt 注入窃取密钥并破坏仓库供应链。