标签
本文介绍了Agent-Native免疫系统(ANIS),这是一种受生物启发的内源性防御架构,直接嵌入在智能体的认知循环内。它提出了六层免疫塔、统一的智能体病毒与疫苗分类法,以及用于持续免疫学习的Harness Triad,以应对自主智能体中的运行时劫持漏洞。
An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.
一位开发者讨论了编码代理获取API密钥的三种常见模式,强调代理可以通过足智多谋的方式规避限制,并向社区询问他们的实际设置和经验。
一位安全专家分享了关于高级代理安全加固的速查表,涵盖工具沙盒化、输出验证、数据丢失防护、对抗性测试和运行时策略执行,强调了生产环境AI代理的持续安全实践。
AI Agent 安全从学术议题变为产业现实,涉及 FFmpeg 零日漏洞、Chrome 429 补丁、OpenAI Lockdown Mode 和 OWASP 框架;同时 Agent 支付标准成为基础设施战场,Visa 稳定币结算与卡组织竞争。
PixieBrix 推出 Agent Browser Shield,这是一款免费、源代码可用的浏览器扩展,可保护AI代理在浏览网页时免受提示注入、暗黑模式和上下文污染的影响。
SkillHarm 是一个用于评估技能使用生命周期中基于技能的攻击的基准,揭示了当前AI代理的高度脆弱性(攻击成功率高达86.3%),并引入了通过AutoSkillHarm实现的自动化攻击构建。
分析指出,大多数企业AI智能体安全投资集中在模型层护栏和可观测性,在访问层和协议层留下了关键缺口。援引2026年报告,75%的企业AI智能体仍处于未保护状态,原因是这些层的覆盖面几乎为零。
本文介绍了Agent Vulnerability Enumeration (AVE)记录作为一种新标准,旨在解决CVE在AI代理漏洞方面的不足,涵盖针对代理型AI的评分、检测和标准化挑战。
HOL Guard 是一个开源安全工具,为 Codex、Claude Code 等开发 Agent 提供危险命令识别、拦截和审计功能,支持多档保护级别和本地审批中心,防止误删改等风险。
LangSmith 推出 Auth Proxy,用于保护代理沙箱的网络访问安全,避免凭据暴露在运行时中,并强制实施明确的网络访问策略。
开源一个Shell级别的控制层,该层阻止危险命令、暴露虚假秘密并强制执行运行时策略,使AI代理在开发环境中更安全、更确定。
Google I/O 推出了 Gemini Spark,一款由 Gemini 3.5 Flash 和 Antigravity 驱动的个人 AI 智能体,同时宣布 Gemini CLI 将转变为闭源的 Antigravity CLI。文章重点突出了智能体产品在提示注入和数据安全处理方面的担忧。
MIT 6.566 客座讲座:AI Agent 安全,涵盖系统级威胁、提示注入、工具使用漏洞,以及使用 GPT-5.4 和 Qwen 3.5 等大语言模型的演示。
文章警告称,MCP生态正在重演npm、Docker和PyPI中出现的供应链安全模式——审核极少,风险日益增长。文章指出,对500个Smithery服务器的扫描发现18.8%存在安全问题,现有安全工具无法处理恶意智能体指令,并介绍了一个名为bawbel的新型静态扫描器。
作者在Gmail上进行了实验,通过OAuth连接AI代理,发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击,而廉价模型则默默执行,揭示了代理安全很大程度上取决于模型成本和令牌预算,而非架构安全措施。
本文主张AI子代理不应自动继承其父代理的全部权限,而是提倡采用明确范围、工具限制和审计跟踪的弱化委托方式,以增强多代理系统的安全性。
本文提出符号护栏,通过具体策略为特定领域AI智能体提供可证明的安全与保障,同时不降低实用性;实验显示74%的指定策略可通过简单机制强制执行。
OpenAI 描述了针对AI代理检索网页内容时基于URL的数据泄露攻击的安全防护措施。它利用独立网络索引验证URL是否公开已知,再自动检索,以防止提示注入攻击泄露敏感用户数据。