你是如何测试本地编码智能体的工作门以防止提示注入的?

Reddit r/AI_Agents 新闻

摘要

关于测试本地编码智能体的工作门以防止间接提示注入的讨论,重点关注智能体工作流程中的证据信任和验证挑战。

大家好 - 我正在开发一个开源的、本地优先的MCP/工作门工具,用于编码智能体,我希望能从构建或使用智能体工作流程的人那里获得更尖锐的反馈。我正在思考的问题是间接提示注入和证据信任。本地编码智能体可能会摄入问题(issues)、PR文本、文档、日志、依赖输出、网页或MCP工具结果。即使用户是可信的,这些输入可能并不可信。如果智能体随后可以决定是否满足自己的门控要求,就会出现一些棘手的问题:\- 是什么阻止注入的指令说服智能体跳过审查门?\- 什么算作真正的验证证据,而非最终响应的声明?\- 智能体提供的收据是否应与独立获取的CI或附带的证据区别对待?\- 你会首先测试哪些绕过路径?我并不是说提示是一种安全边界,也不是要替代沙箱。我只是想在人们过度依赖本地智能体工作流程的声明之前,让这些声明更加诚实。我会将GitHub问题链接放在评论中,以免本文变成链接丢弃。非常欢迎友好的反驳。
查看原文

相似文章

编程代理的胜负不在于提示词,而在于运行时基础设施

Reddit r/AI_Agents

随着编程代理能力增强,瓶颈从模型质量转向支持长时间运行的基础设施,包括持久状态、权限、检查点、可观测性和成本控制。作者认为,最好的代理产品更像是运行时和工作流系统,而非仅仅改进提示界面。

理解提示词注入:AI安全的前沿挑战

OpenAI Blog

OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。