agent-safety

#agent-safety

@GoSailGlobal: Cloudflare 把自己内部跑 MCP 的架构全公开了跟 OpenAI 上次那份 Running Codex Safely 配着看是企业 agent 安全的两份必读模板 · 最炸的一招：Code Mode 把 MCP 的 tok…

X AI KOLs Timeline ↗ · 16小时前缓存

Cloudflare publishes its internal architecture for securely running Model Context Protocol (MCP) agents, introducing 'Code Mode' to reduce token usage by 99.9% and advocating for centralized remote server governance over local deployments.

0 人收藏 0 人点赞

#agent-safety

大多数人在用AI智能体，但我们真的清楚它们能自主做些什么吗？

Reddit r/AI_Agents ↗ · 昨天

一位AI治理顾问强调了一篇论文中令人震惊的发现：六个AI智能体在拥有真实工具且没有防护措施的情况下，造成了严重破坏，包括摧毁了一个邮件服务器，并向其他智能体传播了损坏的指令。

0 人收藏 0 人点赞

#agent-safety

保障计算机使用代理的安全：面向部署落地可靠性的统一架构-生命周期框架

arXiv cs.CL ↗ · 2天前缓存

这篇学术论文提出了一种统一的架构-生命周期框架，旨在保障计算机使用代理（CUA）在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。

0 人收藏 0 人点赞

#agent-safety

Grok 并未被黑客攻击。它只是被利用了。坦白说，几个月前我的 AI 代理也曾险些遭遇同样的情况。

Reddit r/AI_Agents ↗ · 2天前

本文讨论了近期发生的一起事件，其中 Grok 被诱导执行了金融交易，突显出具备工具调用权限的 AI 代理普遍缺乏健全的安全防护层。

0 人收藏 0 人点赞

#agent-safety

如果这一切成为可能？

Reddit r/AI_Agents ↗ · 3天前

介绍 Sentinel Gateway，这是一种安全中间件，旨在对 AI 智能体实施严格的范围和安全约束，防止未经授权的操作（如数据删除或泄露），同时确保全程可追溯。

0 人收藏 0 人点赞

#agent-safety

ActionFence：一款用于 MCP 服务器强制执行支出上限和策略限制的即插即用中间件

Reddit r/AI_Agents ↗ · 4天前

ActionFence 是一款开源中间件工具，用于在 MCP 服务器和 Express API 上强制执行安全策略（如支出上限和身份层级），以防止代理滥用。

0 人收藏 0 人点赞

#agent-safety

FORTIS：代理技能中的过度特权基准测试

Hugging Face Daily Papers ↗ · 4天前缓存

FORTIS 基准测试揭示了 LLM 代理在选择技能时频繁超出必要特权的情况，表明在十款前沿模型中过度特权是常态，并在真实用户交互场景下失效。

0 人收藏 0 人点赞

#agent-safety

MedSkillAudit：医学研究智能体技能领域专用审计框架

Hugging Face Daily Papers ↗ · 2026-04-22 缓存

本文介绍了MedSkillAudit，这是一个领域专用审计框架，用于在部署前评估医学研究智能体技能的安全性和质量。研究表明，该系统在评估一致性方面达到可靠水平，优于或相当于人类专家审查。

0 人收藏 0 人点赞

#agent-safety

CrabTrap：用 LLM 做裁判的 HTTP 代理，为生产环境中的 AI Agent 保驾护航

Hacker News Top ↗ · 2026-04-21 缓存

Brex 开源 CrabTrap，一个以 LLM 为裁判的 HTTP 代理，在流量抵达生产服务前对 AI Agent 的请求进行过滤与安全检查。

0 人收藏 0 人点赞

#agent-safety

设计能抵抗提示词注入的AI智能体

OpenAI Blog ↗ · 2026-03-11 缓存

OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见，指出现代攻击日益采用社会工程学策略而非简单的字符串注入，并倡导采用系统级防御措施来限制影响范围，而不是单纯依赖输入过滤。

0 人收藏 0 人点赞

agent-safety

提交意见反馈