agent-security

#agent-security

Agent-Native 免疫系统：架构、分类与工程

arXiv cs.AI ↗ · 12小时前缓存

本文介绍了Agent-Native免疫系统（ANIS），这是一种受生物启发的内源性防御架构，直接嵌入在智能体的认知循环内。它提出了六层免疫塔、统一的智能体病毒与疫苗分类法，以及用于持续免疫学习的Harness Triad，以应对自主智能体中的运行时劫持漏洞。

0 人收藏 0 人点赞

#agent-security

当智能体使用人类凭证运行时，如何保留审计跟踪？

Reddit r/AI_Agents ↗ · 5天前

讨论了当AI智能体使用人类凭证运行时，维护审计跟踪的挑战，强调了安全和问责问题。

0 人收藏 0 人点赞

#agent-security

@wquguru: If you want to trick Fable into doing a security audit, try this. Looks like our AI overlord has a bit of empathy.

X AI KOLs Timeline ↗ · 2026-06-13 缓存

An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.

0 人收藏 0 人点赞

#agent-security

你的代理实际上是如何获取API密钥的？

Reddit r/AI_Agents ↗ · 2026-06-12

一位开发者讨论了编码代理获取API密钥的三种常见模式，强调代理可以通过足智多谋的方式规避限制，并向社区询问他们的实际设置和经验。

0 人收藏 0 人点赞

#agent-security

@AiCamila_: 高级代理安全加固——超越基本提示注入防御，高级代理安全包括工具沙盒化…

X AI KOLs Timeline ↗ · 2026-06-09 缓存

一位安全专家分享了关于高级代理安全加固的速查表，涵盖工具沙盒化、输出验证、数据丢失防护、对抗性测试和运行时策略执行，强调了生产环境AI代理的持续安全实践。

0 人收藏 0 人点赞

#agent-security

@seclink: 1. Agent 安全已从学术议题变为产业现实：FFmpeg 零日（$1,000 成本）+ Chrome 429 补丁 + OpenAI Lockdown Mode + OWASP 框架——安全产业链正在被 AI Agent 重塑。 2.…

X AI KOLs Following ↗ · 2026-06-08 缓存

AI Agent 安全从学术议题变为产业现实，涉及 FFmpeg 零日漏洞、Chrome 429 补丁、OpenAI Lockdown Mode 和 OWASP 框架；同时 Agent 支付标准成为基础设施战场，Visa 稳定币结算与卡组织竞争。

0 人收藏 0 人点赞

#agent-security

AI代理只需一次提示注入，就可能做出你绝不会要求它们做的事。我们构建了一个修复方案。

Reddit r/openclaw ↗ · 2026-06-03

PixieBrix 推出 Agent Browser Shield，这是一款免费、源代码可用的浏览器扩展，可保护AI代理在浏览网页时免受提示注入、暗黑模式和上下文污染的影响。

0 人收藏 0 人点赞

#agent-security

SkillHarm：通过自动化构建的生命周期感知技能攻击

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

SkillHarm 是一个用于评估技能使用生命周期中基于技能的攻击的基准，揭示了当前AI代理的高度脆弱性（攻击成功率高达86.3%），并引入了通过AutoSkillHarm实现的自动化攻击构建。

0 人收藏 0 人点赞

#agent-security

按治理层而非功能列表划分的AI智能体管理工具

Reddit r/AI_Agents ↗ · 2026-05-30

分析指出，大多数企业AI智能体安全投资集中在模型层护栏和可观测性，在访问层和协议层留下了关键缺口。援引2026年报告，75%的企业AI智能体仍处于未保护状态，原因是这些层的覆盖面几乎为零。

0 人收藏 0 人点赞

#agent-security

什么是AVE记录，以及为什么CVE不适用于AI代理？

Reddit r/AI_Agents ↗ · 2026-05-25

本文介绍了Agent Vulnerability Enumeration (AVE)记录作为一种新标准，旨在解决CVE在AI代理漏洞方面的不足，涵盖针对代理型AI的评分、检测和标准化挑战。

0 人收藏 0 人点赞

#agent-security

@wsl8297: 做 Agent 最怕的场景，是它把危险命令当正常步骤执行，HOL Guard 就是冲着这个问题来的。 GitHub：https://github.com/hashgraph-online/hol-guard… 官网：https://hol…

X AI KOLs Timeline ↗ · 2026-05-23 缓存

HOL Guard 是一个开源安全工具，为 Codex、Claude Code 等开发 Agent 提供危险命令识别、拦截和审计功能，支持多档保护级别和本地审批中心，防止误删改等风险。

0 人收藏 0 人点赞

#agent-security

@hwchase17: https://x.com/hwchase17/status/2057506580447510889

X AI KOLs Timeline ↗ · 2026-05-21 缓存

LangSmith 推出 Auth Proxy，用于保护代理沙箱的网络访问安全，避免凭据暴露在运行时中，并强制实施明确的网络访问策略。

0 人收藏 0 人点赞

#agent-security

开源用于AI代理的Shell级别安全层

Reddit r/AI_Agents ↗ · 2026-05-21

开源一个Shell级别的控制层，该层阻止危险命令、暴露虚假秘密并强制执行运行时策略，使AI代理在开发环境中更安全、更确定。

0 人收藏 0 人点赞

#agent-security

Google I/O, Gemini Spark, Antigravity

Simon Willison's Blog ↗ · 2026-05-20 缓存

Google I/O 推出了 Gemini Spark，一款由 Gemini 3.5 Flash 和 Antigravity 驱动的个人 AI 智能体，同时宣布 Gemini CLI 将转变为闭源的 Antigravity CLI。文章重点突出了智能体产品在提示注入和数据安全处理方面的担忧。

0 人收藏 0 人点赞

#agent-security

AI Agent 安全 - MIT 6.566 客座讲座

Lobsters Hottest ↗ · 2026-05-18 缓存

MIT 6.566 客座讲座：AI Agent 安全，涵盖系统级威胁、提示注入、工具使用漏洞，以及使用 GPT-5.4 和 Qwen 3.5 等大语言模型的演示。

1 人收藏 1 人点赞

#agent-security

npm/Docker/PyPI的供应链安全模式正在MCP上重演，我们正处于2015年的时刻

Reddit r/AI_Agents ↗ · 2026-05-17

文章警告称，MCP生态正在重演npm、Docker和PyPI中出现的供应链安全模式——审核极少，风险日益增长。文章指出，对500个Smithery服务器的扫描发现18.8%存在安全问题，现有安全工具无法处理恶意智能体指令，并介绍了一个名为bawbel的新型静态扫描器。

0 人收藏 0 人点赞

#agent-security

AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的？

Reddit r/AI_Agents ↗ · 2026-05-13

作者在Gmail上进行了实验，通过OAuth连接AI代理，发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击，而廉价模型则默默执行，揭示了代理安全很大程度上取决于模型成本和令牌预算，而非架构安全措施。

0 人收藏 0 人点赞

#agent-security

子代理不应自动继承父代理的权限

Reddit r/AI_Agents ↗ · 2026-05-11

本文主张AI子代理不应自动继承其父代理的全部权限，而是提倡采用明确范围、工具限制和审计跟踪的弱化委托方式，以增强多代理系统的安全性。

0 人收藏 0 人点赞

#agent-security

面向特定领域智能体的符号护栏：不牺牲实用性的更强安全与保障

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

本文提出符号护栏，通过具体策略为特定领域AI智能体提供可证明的安全与保障，同时不降低实用性；实验显示74%的指定策略可通过简单机制强制执行。

0 人收藏 0 人点赞

#agent-security

当AI代理点击链接时保护您的数据安全

OpenAI Blog ↗ · 2026-01-28 缓存

OpenAI 描述了针对AI代理检索网页内容时基于URL的数据泄露攻击的安全防护措施。它利用独立网络索引验证URL是否公开已知，再自动检索，以防止提示注入攻击泄露敏感用户数据。

0 人收藏 0 人点赞

agent-security

提交意见反馈