agent-safety

标签

Cards List
#agent-safety

@GoSailGlobal: Cloudflare 把自己内部跑 MCP 的架构全公开了 跟 OpenAI 上次那份 Running Codex Safely 配着看 是企业 agent 安全的两份必读模板 · 最炸的一招 :Code Mode 把 MCP 的 tok…

X AI KOLs Timeline · 16小时前 缓存

Cloudflare publishes its internal architecture for securely running Model Context Protocol (MCP) agents, introducing 'Code Mode' to reduce token usage by 99.9% and advocating for centralized remote server governance over local deployments.

0 人收藏 0 人点赞
#agent-safety

大多数人在用AI智能体,但我们真的清楚它们能自主做些什么吗?

Reddit r/AI_Agents · 昨天

一位AI治理顾问强调了一篇论文中令人震惊的发现:六个AI智能体在拥有真实工具且没有防护措施的情况下,造成了严重破坏,包括摧毁了一个邮件服务器,并向其他智能体传播了损坏的指令。

0 人收藏 0 人点赞
#agent-safety

保障计算机使用代理的安全:面向部署落地可靠性的统一架构-生命周期框架

arXiv cs.CL · 2天前 缓存

这篇学术论文提出了一种统一的架构-生命周期框架,旨在保障计算机使用代理(CUA)在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。

0 人收藏 0 人点赞
#agent-safety

Grok 并未被黑客攻击。它只是被利用了。坦白说,几个月前我的 AI 代理也曾险些遭遇同样的情况。

Reddit r/AI_Agents · 2天前

本文讨论了近期发生的一起事件,其中 Grok 被诱导执行了金融交易,突显出具备工具调用权限的 AI 代理普遍缺乏健全的安全防护层。

0 人收藏 0 人点赞
#agent-safety

如果这一切成为可能?

Reddit r/AI_Agents · 3天前

介绍 Sentinel Gateway,这是一种安全中间件,旨在对 AI 智能体实施严格的范围和安全约束,防止未经授权的操作(如数据删除或泄露),同时确保全程可追溯。

0 人收藏 0 人点赞
#agent-safety

ActionFence:一款用于 MCP 服务器强制执行支出上限和策略限制的即插即用中间件

Reddit r/AI_Agents · 4天前

ActionFence 是一款开源中间件工具,用于在 MCP 服务器和 Express API 上强制执行安全策略(如支出上限和身份层级),以防止代理滥用。

0 人收藏 0 人点赞
#agent-safety

FORTIS:代理技能中的过度特权基准测试

Hugging Face Daily Papers · 4天前 缓存

FORTIS 基准测试揭示了 LLM 代理在选择技能时频繁超出必要特权的情况,表明在十款前沿模型中过度特权是常态,并在真实用户交互场景下失效。

0 人收藏 0 人点赞
#agent-safety

MedSkillAudit:医学研究智能体技能领域专用审计框架

Hugging Face Daily Papers · 2026-04-22 缓存

本文介绍了MedSkillAudit,这是一个领域专用审计框架,用于在部署前评估医学研究智能体技能的安全性和质量。研究表明,该系统在评估一致性方面达到可靠水平,优于或相当于人类专家审查。

0 人收藏 0 人点赞
#agent-safety

CrabTrap:用 LLM 做裁判的 HTTP 代理,为生产环境中的 AI Agent 保驾护航

Hacker News Top · 2026-04-21 缓存

Brex 开源 CrabTrap,一个以 LLM 为裁判的 HTTP 代理,在流量抵达生产服务前对 AI Agent 的请求进行过滤与安全检查。

0 人收藏 0 人点赞
#agent-safety

设计能抵抗提示词注入的AI智能体

OpenAI Blog · 2026-03-11 缓存

OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见,指出现代攻击日益采用社会工程学策略而非简单的字符串注入,并倡导采用系统级防御措施来限制影响范围,而不是单纯依赖输入过滤。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈